2013 HZAU
- 2. 1
全国油菜单产量与农业保险纯费率的研究
摘要
我国作为一个农业大国,同时也是一个农业自然灾害频繁而严重的国家。完
善农业保险,合理的厘定纯费率,不仅能减轻农民经济负担,而且能维护社会安
定。本文基于统计中的相关理论,对全国各区纯费率的设定与优化做了一些探讨。
对于第一问,首先将 31 个省市按地理因素分为 6 个区域;然后通过平稳性
检验来判断各区油菜单产的趋势,发现均不平稳;再将各区域通过一元线性回归,
非线性最小二乘法和 Logistic 曲线回归来拟合单产量的时间趋势,并按照公式
5.7 剔除趋势,最终将去趋势后的数据进行整理并再次利用平稳性检验来判断趋
势是否剔除。结果发现去趋势处理之后,各区油菜单产量序列的平稳性显著提高。
对于第二问,首先选取正态分布、γ分布、Weibull 分布三种参数模型,利
用极大似然法(MLE)对去趋势处理之后的各区油菜单产进行拟合,得出不同区
域在不同分布下的参数。然后利用总体分布的 检验,通过比较观测值(k)与分
位数(c)的大小,选取出各区油菜单产最优的概率分布模型。发现第 1、3 区域
服从 Gamma 分布,第 2、4、6 区域服从正态分布,第 5 区域服从 Weibull 分布。
具体参数估计值请见表 5-10。
对于第三问,首先利用问题二中已确定的各区油菜单产量的最优概率分布模
型,运用保险学和概率论等相关知识,将各区概率分布模型代入公式 5.8 中,通
过在 Matlab 中进行积分运算,求得出各区的纯费率,分别为 0.0461,0.1066
0.0942,0.0287,0.0793,0.0378.然后以 2012 年各区油菜总产量占当年全国总产
量的比率为权重,分别加载至各地区的纯费率,从而确定出全国纯费率为0.0604。
对于第四问,从两方面进行考虑,第一,分析了各地区油菜单产量不平稳可
能源于生产技术、劳动者素质的提高,各地区油菜单产具有不同的概率分布模型
可能由于地方政府对油菜种植的重视度及气候因素的不同而导致,以及各区纯费
率与全国纯费率仍可能使部分农民由于地域差异而无法得到 100%补偿;第二,
从保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度
全方位思考,分别对已得纯费率赋予不同的权重而进行优化,见表 5-16,表 5-17,
表 5-18,从而得到不同区域下不同时期的最优纯费率,见表 5-18。
最后,本文对所建立的模型和求解方法的优缺点给出了评价,并结合实际对
模型的推广加以分析。
关键词: 平稳性检验 非线性回归 极大似然法 卡方检验
- 4. 3
对于第 3 问,计算纯费率。本文利用问题二中已确定的各区油菜单产量的最
优概率分布模型,运用保险学和概率论等相关知识,将各区概率分布模型代入公
式 5.8 中,通过在 Matlab 中进行积分运算,求得出各区的纯费率。
对于第4问,对结果进行讨论。本文从两个方面进行回答,第一,对前三问
中所得的各地区及全国油菜单产量趋势、概率分布及纯费率进行解释;第二,从
保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度对
问题三中所得纯费率进行优化,从而确定出最优纯费率。
3 模型的假设
3.1 假设所找数据较合理,能够很好的反应全国各省油菜单位面积产量;
3.2 假设油菜花的种植面积等因素不会受到各省份政策上的突然转变;
3.3 假设油菜花的市场需求较稳定,农民不会急剧改变油菜种植要素;
3.4 假设用 10 年各区油菜单产量数据进行卡方检验仍具有一定的参考价值;
3.5 假设卡方统计量的观测值(k)和分位数(c)的差值与拟合相关程度成反比。
4 符号说明
符号 说明
第 i 个地区
第 i 个地区第 j 阶段的纯费率
全国性纯费率
随机误差
̃ 第 t 年的实际单产量
5 模型的建立与求解
5.1 问题一:对某一农作物历史单产数据序列进行去趋势处理
5.1.1 对问题一的分析
由于存在农业技术进步、基础设施改善、劳动者素质提高等因素的作用,农
作物单产序列可能会存在着随时间而增长的趋势。而我们要研究的是农业生产面
对的自然灾害风险,以此为基础厘定合理的农业保险费率,所以要将数据的时间
趋势剔除掉以考察序列的随机性[4]。因此在厘定纯费率之前,需对农作物(油
菜)历史单产数据序列进行去趋势处理。针对问题一,本文将去趋势处理分为四
个步骤:1 判断趋势,2 估计趋势,3 剔除趋势,4 检验趋势。具体流程图见图
5.1。
- 5. 4
图 5.1 去趋势处理流程图
5.1.2 数据的处理
由于农作物的生长于其所处的地理环境密切相关,所以,本文首先将我国大
陆地区 31 个省份按照地理因素分为 6 区分别记为 Ai(i=1,2..6),具体分类见表
5-1。并通过 EXCEL 软件将收集到的 31 个省份 2003-2012 年油菜单产时间序列数
据(见附录 1)进行统计整理,得到表 5-2。
表 5-1 省份分区表
区域 省份
A1 北京 天津 河北 山西 内蒙古
A2 辽宁 吉林 黑龙江
A3 上海 江苏 浙江 安徽 福建 江西 山东
A4 河南 湖北 湖南 广东 广西 海南
A5 重庆 四川 贵州 云南 西藏
A6 陕西 甘肃 青海 宁夏 新疆
表 5-2 各区油菜单位面积产量表(单位:公斤/顷)
区域 2003 2004 2005 2006 2007
A1 3352 3503 3484 3185 3470
A2 2796 2777 2087 2893 3821
A3 11009 11216 13278 13122 13370
A4 6384 7225 7914 7918 8143
A5 8859 8961 9333 9343 9586
去趋势处理
平稳性检验
回归模拟
剔除趋势
平稳性检验
结束
平
稳
- 6. 5
A6 7352 8460 7946 8218 8885
2008 2009 2010 2011 2012
A1 3107 3833 3419 3363 3526
A2 5301 4590 3716 4201 4646
A3 14093 14154 14199 13629 13532
A4 8449 7850 8169 7909 7725
A5 9485 9450 9421 8432 10028
A6 7854 8558 9168 9551 10177
5.1.3 模型的建立
1)判断趋势
通过平稳性检验来确定各区是否存在时间趋势,如果是平稳的序列,则不需
再作去趋势处理。下面对 A1 区域进行时间序列分析(代码见附录 2)。整理结果
得到图 5.1 和图 5.2,分别为 A1 区的自相关系数图和油菜单产时序图。由于篇幅
限制,只列出 A1 区的平稳性检测结果,同理对剩下 5 个区进行平稳性分析。综合
各时序图和自相关图,发现 6 个区域的油菜单位面积产量序列不具有平稳性。因
此可以判断原始数据存在时间趋势,有进行去趋势处理的必要。
Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error
0 35618.160 1.00000 | |********************| 0
1 -17847.344 -.50107 | . **********| . | 0.316228
2 5027.112 0.14114 | . |*** . | 0.387576
3 -3508.392 -.09850 | . **| . | 0.392682
4 -3770.596 -.10586 | . **| . | 0.395145
5 7410.580 0.20806 | . |**** . | 0.397971
6 -5793.544 -.16266 | . ***| . | 0.408703
7 164.052 0.00461 | . | . | 0.415126
8 1244.048 0.03493 | . |* . | 0.415131
9 -734.996 -.02064 | . | . | 0.415425
图5.2 A1油菜单位面积产量自相关图
- 7. 6
图5.3 A1油菜单位面积产量时序图
2)估计趋势
估计农作物单产趋势的方法有很多种,大体分为三类:○1 回归方程模拟法,
○2 滑动平均模拟法,○3 直线滑动平均法。本文采取回归模型模拟法,该方法是通
过建立单产关于时间t的回归方程,来分解时间t对单产的影响。由于单产的时间
趋势是未知的,可能是线性的,也可能是非线性的。所以需要先辨别时间的趋势
方程。通常用来模拟单产时间趋势的方程主要有:直线、指数曲线、对数曲线、
多项式、幂曲线等。在此,假设趋势方程为:
̂ (5.1)
̂ (5.2)
̂ (5.3)
然后分别通过一元线性回归,非线性最小二乘法和Logistic曲线回归来拟合各区
油菜单位面积产量的时间趋势方程。
下面以A1区域为例:
首先,按公式5.1建立一元线性回归方程,利用SAS软件进行建模求解,得到
拟合直线,见图5.3。由表5-3有,Pr>F的值为0.6389远大于0.05,故接受原假设,
认为y与x之间没有显著的线性关系。因此图5.4中回归常数和回归系数的估计值
也没有过多的参考价值。
DC
3100
3200
3300
3400
3500
3600
3700
3800
3900
year
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
- 8. 7
图5.4 A1区域历年油菜单产量散点图及回归线图
表5-3 A1区域历年油菜单产量方差分析表
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 10282 10282 0.24 .6389
Error 8 345900 43237
C Total 9 356182
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 3362.80000 142.04750 23.67 <.0001
x 1 11.16364 22.89303 0.49 0.6389
图5.5 回归系数与回归常数估计值及显著性检验图
其次,按公式5.2建立指数方程,用非线性最小二乘法求回归参数a及参数b
的值,首先通过将̂ 线性化,得到 ̂ ,令 ̂ 为 为c,从
而建立了x关于w的线性方程。通过对数线性模型算得常数项c(即 )为8.11975,
x的系数b为0.00316.根据非线性最小二乘法规则,以上则通过“线性化”的方法
求出了初值 3360.2. 0.00316.记 这里
及 为待定的数值,其作用是对 和 作出修正,称为步长。然后运用高斯-
牛顿(Gauss-Newton)法,进行建模求解(代码见附录3)。由表5-4及表5-5,
y
3100
3200
3300
3400
3500
3600
3700
3800
3900
x
1 2 3 4 5 6 7 8 9 10
- 9. 8
得到参数估计值 和 分别为3362.9及0.00328.并且发现Pr>F的值为<0.0001,
远小于0.05,说明拟合效果显著,故根据公式 5-2所建立的方程结果为
̂ ,其中x的范围是1至10的整数,分别代表2003年至2012年。
The NLIN Procedure Iterative Phase
Dependent Variable
Method: Gauss-Newtow
Iter a b Sum of Square
0 3360.2 0.00316 346105
1 3362.9 0.00328 345846
2 3362.9 0.00328 345846
NOTE: Convergence criterion met.
图5.6 非线性最小二乘法迭代过程图
表5-4 最小二乘法参数检验表
Sum of Mean Approx
Source DF Squares Square F Value Pr > F
Regression 2 1.1726E8 58630896 1356.23 <.0001
Residual 8 345846 43230.8
Uncorrected Total 10 1.1761E8
Corrected Total 9 356182
表5-5 最小二乘法参数估计表
Parameter Estimate Std Error Approximate 95% Confidence Limit
a 3362.9 140.6 3038.7 3687.1
b 0.00328 0.00669 -0.0121 0.0187
最后,按照公式5.3建立Logistic曲线方程,利用SAS软件中Logistic曲线回
归,建立模型,拟合历年A1区油菜单位面积产量,并估计出未知参数a和b。根据
( )
(5.4)
算出常数k值为3486.又令 ( ) ,将Logistic方程化为 ̂
用建立线性回归方程的方法得到̂ 后,由 即可得到
所求的非线性回归方程,通过编程解得A为-4.78415,B为0.14303.从而推出a和b
的值分别是0.0084和-0.14303.为了减少回归方程的剩余平方和,接着用非线性
最小二乘法求回归方程中的参数a,b,k.所得结果见表5-6和表5-7,发现Pr>F的值
为0.9545远大于0.05,故拟合曲线不符合公式5.3的形式。
- 10. 9
表5-6 Logistic曲线回归参数检验表
针对A1区的2003年到2012年油菜单产量的数据,通过三种方式的拟合,发现
油菜单产量的趋势相对来说更符合公式5.2,最终结果为̂ 。同
理,随机抽取A3、A4和A6区域,分别采用这三种趋势方程对油菜的单产序列分布
图进行拟合,经过比较发现时间t的指数方程(̂ )对数据的拟合效果较
好,因此采取时间t的指数方程来估计单产的时间趋势。建立单产的趋势方程如
下:
(5.5)
( ) (5.6)
其中:Yt是真实产量, 是时间趋势产量, ( )是时间t的指数方程式, 和
是随机误差。各区域的指数方程式见表5-8。
表5-8 各区域油菜单产量趋势拟合表
区域 指数方程式
A1 ( )
A2 ( )
A3 ( )
A4 ( )
A5 ( )
A6 ( )
3)剔除趋势
为了将各年份不同生产力水平下的单产量转化到同一生产力水平下的产量,
实现去趋势的目的,本文的具体方法是将个年份的时间趋势产量换算到2012年的
生产因素下。将2012年之前的各年份的实际单产数据加上其时间趋势产量与2012
Sum of Mean Approx
Source DF Squares Square F Value Pr > F
Regression 3 1.1726E8 39085387 0.05 0.9545
Residual 7 351477 50210.9
Uncorrected Total 10 1.1761E8
Corrected Total 9 356182
表5-7 Logistic 曲线回归参数估计表
Parameter Estimate Std Error Approximate 95% Confidence Limits
k 4227.0 1428443 -3373532 3381985
a 0.2399 418.9 -990.4 990.9
b 0.00456 6.5853 -15.5672 15.5764
- 11. 10
年的差额,以此将各年的单产转换成在2012年的生产力水平下的单产,排除时间
的趋势作用。趋势调整方程如下:
̂ ( ) ( ) (5.7)
其中:̂是趋势调整后的产量, 是作物的真实产量, ( )是时间的趋势方
程。
4)检验趋势
为了了解趋势是否被剔除,本文采用平稳性检验的方法,以观察去趋势处
理后各区油菜单位面积产量是否趋于平稳。首先通过Matlab编程得出各区去趋势
后历年单产量(代码见附录4),得到各区去趋势处理后的历年油菜单产量的数
据见表5-9,然后将得到数据输入SAS以进行平稳性检验。发现去趋势效果较好,
呈现平稳的迹象。下面针对A1区域为例,由图5.6可得A1区经过去趋势处理后,明
显比之前平稳。虽然自相关系数中间有增长,但总体来看呈现趋于0的效果,故
认为此种去趋势处理的效果有效。
表5-9 去趋势后各区油菜单位面积产量表
区域 2003 2004 2005 2006 2007
A1 3453 3593 3563 3253 3527
A2 2897 2867 2166 2961 3878
A3 11111 11306 13357 13190 13427
A4 6485 7315 7993 7986 8200
A5 8960 9051 9412 9411 9643
A6 7453 8550 8025 8286 8942
2008 2009 2010 2011 2012
A1 3152 3867 3442 3374 3526
A2 5346 4624 3739 4212 4646
A3 14138 14188 14222 13640 13532
A4 8494 7884 8192 7920 7725
A5 9530 9484 9444 8443 10028
A6 7899 8592 9191 9562 10177
Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
1 -0.52380 | . **********| . |
2 -0.22722 | . *****| . |
3 -0.29658 | . ******| . |
4 -0.43828 | . *********| . |
5 -0.16697 | . ***| . |
6 -0.13840 | . ***| . |
7 -0.26258 | . *****| . |
8 -0.18570 | . ****| . |
9 -0.09192 | . **| . |
图5.6 去趋势后A1区油菜单位面积产量自相关图
- 12. 11
5.2 问题二:对该种农作物单产服从的概率分布进行拟合
5.2.1 对问题二的分析
对所研究的农作物单产服从的概率分布进行拟合,也就是判断出该农作物的
分布模型和具体的参数。由于正态分布的无偏性, 分布的正偏性以及Weibull
分布具有负偏性。所以本文选择正态分布、 分布、Weibull分布三种参数模型利
用极大似然法(MLE)来拟合去趋势处理后的各区历年油菜单位面积产量[7]。然
后通过总体分布的 检验(本打算用AD检验,调用格式见附录5,但由于Matlab
版本的原因无法实现。故在样本总量少的情况下选择卡方检验)对各区的油菜单
产量选取最优的分布模型。
5.2.2 对模型的简介
1)正态分布(Normal distribution)
正 态 分 布 是 具 有 两 个 参 数 和 的 连 续 型 随 机 变 量 的 分 布 , 参 数
是正态分布的随机变量的均值, 是该随机变量的方差,通常记作N( , )。
正态分布的概率密度函数(pdf)为:
( )
√
(
( )
)
其累积分布函数(cdf)为:
( )
√
∫
(
( )
)
2) 分布(Gamma distribution)
分布由两个参数 和 组成,其中 称为形状参数, 称为尺度参数, 和 都
是大于零的正数。且 为随机变量的均值, 为随机变量的方差。
分布的概率密度函数(pdf)为:
( )
( )
其累积分布函数(cdf)为:
( ) ∫ ( )
( )
( )
3)威布尔分布(Weibull distribution)
Weibull分布由形状参数、尺度参数和位置参数决定,它可以通过改变形状
参数的数值而转变成对数正态分布和指数分布。
二参数Weibull分布的概率密度函数(pdf)为:
( ) { ( )
( )
其中λ是形状参数,k是尺度参数。
其累积分布函数(cdf)为:
( )
(( ))
或 ( )
4)总体分布的χ
2
检验
针对于本题,按照假设3.1(10年数据进行卡方检验的结果与大量数据统计
的结果相差不大),所以采用χ
2
检验,。由于样本总量(n=10)较少,在此对x不
- 13. 12
进行划分(即分为10个互不相交的区间),且频数 均为1.然后通过极大似然法
分别估计出三种分布模型下的未知参数并求出各个概率的估计值̂.通过χ
2
统计
量的估测值
∑
( ̂)
̂
看是否存在某一被估计的未知参数有 ( ),若存在则认为总体X
不服从该种分布。
5.2.3 估计参数分布方程
通过调用Matlab中极大似然估计的程序,对6个地区分别进行了正态分布、
Gamma分布、Weibull分布的参数估计,整理各参数得到表5-10
表5-10 各地区分布模型的参数估计表
地区
Normal分布 Gamma分布 Weibull分布
μ β α λ Κ
A1 3475 196.08 350.95 9.90 3565.1 18.5
A2 3733.6 998.89 14.76 253.03 4100.8 4.5
A3 13211 1117.1 145.43 90.84 13647 19
A4 7819.4 563.22 199.67 39.16 8037.1 21.2
A5 9340.6 431.48 509.69 18.33 9525.9 26.9
A6 8667.7 821.35 125.55 69.04 9033.5 11.5
注:μ和 分别为Normal分布的平均值和标准差,α和β分别为Gamma分布的形状参数和
尺度参数,Κ和λ分别为Weibull分布的形状参数和尺度参数。
根据上表中的参数,各区油菜单产量的概率分布模型构建如下:
A1区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A2区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
- 14. 13
A3区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A4区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A5区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A6区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
5.2.4 确定最优分布方程
根据以上所建立的分布模型,在SAS软件中利用总体分布的χ
2
检验(代码
见附录6),分别对6个区的3种分布进行检验。由以上通过极大似然所估量的参
数,可以利用Matlab计算出在不同变量X下,理论频数的估计值 ̂,进而制成关
- 15. 14
于理论频数与实际频数的表格。
表5-11 A1区nx, ̂计算表
x 3453 3593 3563 3253 3527
nx 1 1 1 1 1
A( ̂) 0.0020 0.0017 0.0018 0.0011 0.0020
B( ̂) 0.0021 0.0017 0.0019 0.0011 0.0020
C( ̂) 0.0017 0.0019 0.0019 0.0009 0.0019
x 3152 3867 3442 3374 3526
nx 1 1 1 1 1
A( ̂) 0.0005 0.0003 0.0020 0.0018 0.0020
B( ̂) 0.0005 0.0002 0.0021 0.0019 0.0020
C( ̂) 0.0005 0.0002 0.0017 0.0014 0.0019
注:A、B、C分别代表正态分布,Gamma分布和Weibull分布。
表5-12 A1区各分布下的卡方检验表
分布类型 obs k c
Normal分布 10 9921.79 15.5073
Gamma分布 5 0.006899983 15.5073
Weibull分布 5 0.006507272 15.5073
对剩余5个区进行同样处理,得到卡方检验数据如表5-13.
表5-13 A2-A6区各分布下的卡方检验表
分布类型 obs k c
A2
Normal分布 5 2433.20 15.5073
Gamma分布 5 2530.55 15.5073
Weibull分布 5 2724.68 15.5073
A3
Gamma分布 5 1447.42 15.5073
Weibull分布 5 2099.49 15.5073
A4
Normal分布 5 3156.62 15.5073
Gamma分布 5 4118052.92 15.5073
Weibull分布 5 5396.41 15.5073
A5
Normal分布 5 2955.51 15.5073
Gamma分布 5 2973.72 15.5073
Weibull分布 5 0.000066667 15.5073
A6
Normal分布 5 2410.98 15.5073
Gamma分布 5 2487.71 15.5073
Weibull分布 5 2884.86 15.5073
根据检验结果发现,只有A1区的Gamma分布(0.006899983)和Weibull分布
(0.006507272)以及A5区的Weibull分布(0.000066667)未出现χ
2
统计量的观测值
大于 ( ),即 ( ) .
之所以会产生这样的结果,可能存在以下这两个原因,一是由于样本总量太
少而使检验过于粗糙,随机误差过大;二是由于油菜单产量总体分布不服从所检
- 17. 16
例,详细介绍该区关于油菜的农业保险纯费率(C1)的确定过程,其余各区的纯
费率见表5-14。
首先利用A1区油菜单产量的概率分布模型, ( )
( )
(其中x表
示该区油菜单位面积的产量, ( )表示该区油菜单产为x时的概率大小),通过
调用Matlab中计算期望的程序(代码见附录5)计算出符合此种分布的期望值,
即下面公式中的 ̅,得到A区单产的期望值 ̅为3475,然后将 ( )中的参数和 ̅的
值代入
∫ ( ̅ )
̅
( )
̅
,通过Matlab求解积分,从而计算出A1区纯费率为0.0461.
表5-14 各地区关于油菜农业保险纯费率汇总表
地区 A1 A2 A3 A4 A5 A6
期望值 3475 3733.6 13211 7819.4 9334.1 8667.7
纯费率(CI) 0.0461 0.1066 0.0942 0.0287 0.0793 0.0378
5.3.3全国纯费率的确定
基于各地区油菜农业保险的纯费率,本文以2012年各地区油菜总产量(单位:
万吨)占当年全国油菜总产量[1]的比率作为权重Hi,加载至各地区纯费率(C1),从
而确定出全国纯费率(表5-15中红色数值)。具体数据见表5-15.
表5-15全国纯费率确定过程表
地区 A1 A2 A3 A4 A5 A6 全国
产量 27.6 0.2 333.7 482.1 379.4 119.5 1342.5
权重 0.0206 0.0001 0.2486 0.3591 0.2826 0.0890 1
纯费率 0.0009 0 0.0234 0.0103 0.0224 0.0034
费率累积 0.0009 0.0009 0.0243 0.0346 0.0570 0.0604 0.0604
5.4 问题四:对结果进行讨论
5.4.1 对问题四的分析
本文打算从两个方面来回答问题四,第一,对前三问中所得的各地区及全国
油菜单产量趋势、概率分布及纯费率进行解释;第二,从保险公司、农民和国家
三个角度对问题三中所得纯费率进行优化,确定出最优纯费率。
5.4.2 对前三问所得数据的解释
针对问题一,发现各地区油菜单产量的时间序列并不平稳,总体上看,呈现
出增加的趋势,说明随着时间的推移,油菜种植技术、劳动者素质等生产要素得
到了发展。经过去趋势处理之后,使得数据转变为在统一生产要素下的各地区单
产量,增加了可比性,从而为纯费率的确定奠定了基础。
针对问题二,利用去趋势处理后的数据,进行的概率分布的拟合,发现不同
区域,油菜单产量不一定服从同一分布,原因可能是由于各地区对油菜种植的重
视度及各地区自然环境的差异等因素,使得油菜单产量变化趋势不同。同时,由
于数据量的匮乏,可能使得油菜单产的实际分布与所拟合的分布并不一样。
针对问题三,通过已拟合的各区油菜单产分布,跟据保险学和概率论知识,
确定出了各区纯费率,然后又根据权重得到一个全国性的纯费率。这样做既减少
了保险公司对各地区油菜农业保险做不同的纯费率调整的麻烦,又满足了政府在
宏观上对全国油菜农业保险的宏观调控。不过,在一定程度上又使得部分地区的
农民在受到自然灾害后,财产损失无法得到100%的补偿。
5.4.3 最优纯费率的讨论
- 19. 18
A1 0.0176 0.0231 0.0323 0.0461
A2 0.0408 0.0533 0.0746 0.1066
A3 0.0360 0.0471 0.0659 0.0942
A4 0.0110 0.0144 0.0201 0.0287
A5 0.0303 0.0396 0.0555 0.0793
A6 0.0145 0.0189 0.0265 0.0378
全国 0.0181 0.0302 0.0423 0.0604
6 模型的评价与推广
6.1 模型的优点
第一、依据农作物生长特性,按照地理因素将全部省份划分为6个区域,即
保证了数据得到利用,又降低了统计的复杂度。
第二、运用平稳性检验、回归拟合、多分布的极大似然估计、卡方检验,对
各地区油菜单产量进行了详细的分析、拟合和检验。
第三、从国家,农民,保险公司三个角度出发,全面优化纯费率,使得最终
结果满足各方面的需求。
6.2 模型的缺点
第一、数据的采集量不足,使得卡方检验过于粗糙。
第二、区域的划分可能导致不同省份的差异相互抵消。
第三、优化过程中权重的选取过于主观。
6.3 模型的推广
关于本文确定油菜农业保险纯费率的方法可以同样适用于其他经济作物如
柑橘等,同时对于医疗保险、商业保险纯费率的确定都具有一定的参考价值。
参考文献
[1] 中国统计年鉴,http://www.stats.gov.cn/tjsj/ndsj/,2013年4月29日。
[2]郭兴旭,湖北省油菜种植风险与政策性保险研究,华中农业大学硕士学位论
文,2010年。
[3]王克,农作物单产分布对农业保险费率厘定的影响,中国农业科学院硕士学
位论文,2008年。
[4]陈晨,农作物保险费率厘定方法及其政策影响研究,安徽农业大学硕士学位
论文,2009年。
[5]汪晓银 等,数学建模与数学实验,北京:科学出版社,2010年。
[6]邹庭荣 等,数学软件与数学实验,北京:科学出版社,2010年。
[7]余家林 等,多元统计及SAS应用,武汉:武汉大学出版社,2008年。
[8]油菜种植成本调查,http://www.docin.com/p-83165634.html,2013年5月3
日。
[9]2012通货膨涨率,http://news.hexun.com/2012-09-28/146378751.html,
2013年5月3日。
[10]Ahsan, Ali and Kurian. Toward a theory of agricultural insurance.
American Journal of Agricultural Economics, 1982,64:520-529.
[11]Joseph W. Glauber. Crop Insurance Reconsidered.
Amer.J.Agr.Econ.86(Number 5,2004):1179-1195.
- 20. 19
附录
附录 1 中国各省油菜单位面积产量(单位:公斤/倾)
2012 2011 2010 2009 2008 2007
北 京
天 津
河 北 1436 1312 1335 1469 1293 1323
山 西 991 1048 1062 1448 804 937
内蒙古 1099 1003 1022 916 1010 1210
辽 宁 2071 1950 1995 1980 3438 1621
吉 林
黑龙江 2575 2251 1721 2610 1863 2200
上 海 2150 2195 2161 2303 2180 2168
江 苏 2385 2444 2555 2482 2520 2455
浙 江 1958 1803 1993 2110 2111 1958
安 徽 1917 1935 2186 2092 2096 1984
福 建 1369 1293 1338 1286 1301 1292
江 西 1228 1167 1132 1062 1037 1023
山 东 2525 2792 2834 2819 2848 2490
河 南 2016 2260 2437 2578 2410 2282
湖 北 1931 2005 2029 1972 2085 1915
湖 南 1559 1530 1509 1328 1492 1497
广 东 1181 1171 1111 1006 1353 1358
广 西 1038 943 1083 966 1109 1091
海 南
重 庆 1791 1784 1782 1768 1713 1757
四 川 2223 2166 2134 2137 2041 2119
贵 州 1469 1077 1508 1463 1608 1580
云 南 1900 963 1633 1643 1862 1864
西 藏 2645 2442 2364 2439 2261 2266
陕 西 1887 1847 1831 1870 1762 1694
甘 肃 1794 1816 1753 1762 1608 1644
青 海 1999 1948 2126 2050 1868 1671
宁 夏 2143 1782 1415 1600 1127 1900
新 疆 2354 2158 2043 1276 1489 1976
- 21. 20
附录 2 平稳性检验代码
goptions vsize=25cm hsize=25cm;
data a;
input DC@@;
year=intnx('year','1jan2003'd,_n_-1);
format year year4.;
cards;
3352 3503 3484 3185 3470 3107 3833 3419
3363 3526
/*A1 区域 2003-2012 年油菜单位面积产量数
据*/
;
run;
proc gplot;
plot DC*year;
symbol v=circle i=join c=blue;
proc arima data=a;
identify var=DC nlag=22;
run;
附录 3 非线性最小二乘法代码
data ex;input x y @@;
cards;
1 3352 2 3503 3 3484 4 3185 5 3470
6 3107 7 3833 8 3419 9 3363 10 3526
;
proc nlin;
parms a=3360.2 b=0.00316;
model y=a*exp(b*x);
der.a=exp(b*x);
der.b=a*x* exp(b*x);
run;
附录 4 去趋势处理后数据代码
y=[3352 3503 3484 3185 3470 3107 3833
3419 3363 3526]; %A1 区原油菜单产量数
据
t=[1 2 3 4 5 6 7 8 9 10];
a= 3362.9*(exp(0.00328*10));
c=3362.9*(exp(0.00328*t));
b=y+a-c %b 即为去趋势处理后A1 区油菜单
产量数据
附录 5 Matlab 中个功能调用格式
AD 检验: [h,p,adstat,cv]=adtest(x)
MLE 正 态 分 布 :
[muhat,sigmahat,muci,sigmaci]=
normfit(x,alpha)
MLE Weibull 分 布 : [phat, pci] =
weibfit(data,alpha)
MLE Gamma 分布: [phat, pci] = gamfit(x,
alpha, options)
期望值 Gamma 分布:[M]=gamstat(a,b)
期望值 正态分布: [M]=normstat(a,b)
期望值 Weibull 分布: [M]=wblstat(a,b)
附录 6 总体分布 检验代码
data ex;input n np@@;
k+(n-np)**2/np;
c=cinv(0.95,8);
cards;
0.0017 0.0019 0.0019 0.0009 0.0019
0.0005 0.0002 0.0017 0.0014 0.0019
/*A1 区 Weibull 分布下的理论频数*/
;
proc print;
var k c;
run;