SlideShare a Scribd company logo
1 of 21
Download to read offline
2013年华中农业大学
交叉学科数学建模竞赛
2013 年 4 月 28 日-5 月 2 日
姓 名 何力
学 号 2011307200206
学院/年级/专业 工学院
宿舍/电话 荟五-473
Email/QQ 578505393
参赛编号 2013032
参赛题目(填 A/B) A
1
全国油菜单产量与农业保险纯费率的研究
摘要
我国作为一个农业大国,同时也是一个农业自然灾害频繁而严重的国家。完
善农业保险,合理的厘定纯费率,不仅能减轻农民经济负担,而且能维护社会安
定。本文基于统计中的相关理论,对全国各区纯费率的设定与优化做了一些探讨。
对于第一问,首先将 31 个省市按地理因素分为 6 个区域;然后通过平稳性
检验来判断各区油菜单产的趋势,发现均不平稳;再将各区域通过一元线性回归,
非线性最小二乘法和 Logistic 曲线回归来拟合单产量的时间趋势,并按照公式
5.7 剔除趋势,最终将去趋势后的数据进行整理并再次利用平稳性检验来判断趋
势是否剔除。结果发现去趋势处理之后,各区油菜单产量序列的平稳性显著提高。
对于第二问,首先选取正态分布、γ分布、Weibull 分布三种参数模型,利
用极大似然法(MLE)对去趋势处理之后的各区油菜单产进行拟合,得出不同区
域在不同分布下的参数。然后利用总体分布的 检验,通过比较观测值(k)与分
位数(c)的大小,选取出各区油菜单产最优的概率分布模型。发现第 1、3 区域
服从 Gamma 分布,第 2、4、6 区域服从正态分布,第 5 区域服从 Weibull 分布。
具体参数估计值请见表 5-10。
对于第三问,首先利用问题二中已确定的各区油菜单产量的最优概率分布模
型,运用保险学和概率论等相关知识,将各区概率分布模型代入公式 5.8 中,通
过在 Matlab 中进行积分运算,求得出各区的纯费率,分别为 0.0461,0.1066
0.0942,0.0287,0.0793,0.0378.然后以 2012 年各区油菜总产量占当年全国总产
量的比率为权重,分别加载至各地区的纯费率,从而确定出全国纯费率为0.0604。
对于第四问,从两方面进行考虑,第一,分析了各地区油菜单产量不平稳可
能源于生产技术、劳动者素质的提高,各地区油菜单产具有不同的概率分布模型
可能由于地方政府对油菜种植的重视度及气候因素的不同而导致,以及各区纯费
率与全国纯费率仍可能使部分农民由于地域差异而无法得到 100%补偿;第二,
从保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度
全方位思考,分别对已得纯费率赋予不同的权重而进行优化,见表 5-16,表 5-17,
表 5-18,从而得到不同区域下不同时期的最优纯费率,见表 5-18。
最后,本文对所建立的模型和求解方法的优缺点给出了评价,并结合实际对
模型的推广加以分析。
关键词: 平稳性检验 非线性回归 极大似然法 卡方检验
2
1 问题的背景和研究意义
1.1 问题的背景
农业生产无论是对发达国家还是发展中国家来说,一直都是一种高风险的
活动。其面对的风险不仅包括来自地理环境、气候以及生物系统本身的自然风险,
还有农业投入产出品价格的市场风险。我国作为一个农业大国,同时也是一个农
业自然灾害频繁而严重的国家。如何减少农民的财产损失,维护社会的安定,也
保证保险公司的正常经营,合理厘定保险费率成为农业保险面临的一个实际课题。
1.2 文献综述
对于农业保险费率厘定的研究自从上世纪 80 年代已经得到许多专家学者的
关注研究。庹国柱、丁少群采用指标图重叠法划分风险区域,利用正态函数法计
算各风险区域的费率。但受到当时世界农作物产量分布模型的限制,假定棉花的
生产分布函数是正态分布还有待检验。钟甫宁等利用非参数信息扩散模型对我国
粮食生产风险进行了分析。然而,由于农作物单产不可能无限增大,农作物可能
更符合非正态分布,国外学者们在 90 年代左右提出了多种单产分布的参数模型,
如 Beta 分布、Gamma 分布、Weibull 分布等,并利用极大似然估计,AD 检验等
方法对模型进行了定量分析。其中不少学者的研究方法对于本问题都适用,可以
借鉴过来解决本问题。
1.3 研究意义
对于农业保险费率厘定的研究,有利于减少自然灾害等不可抗拒因素对农民
的经济损失;增加公民保险意识,为保险公司开创一种新的保险模式,同时也降
低社会暴乱的几率,对国家的安定起到非同小可的作用。
2 问题的提出与分析
对于第 1 问,将某种农作物的历史单产数据序列进行去趋势处理。本文收集
了我国各省 2003-2012 年间油菜种植单位面积产量的数据[1],按照地理因素将
全国 31 个省(除港澳台)分为 6 个区域。利用平稳性检验来判断各区油菜单产
量是否存在时间趋势,通过一元线性回归,非线性最小二乘法和 Logistic 曲线
回归来拟合单产量的时间趋势,并按照公式 5.7 剔除趋势,最终将去趋势后的数
据进行整理并再次利用平稳性检验来判断趋势是否剔除。
对于第 2 问,对该种农作物单产服从的概率分布进行拟合。本文选择正态分
布、γ分布、Weibull 分布三种参数模型,利用极大似然法(MLE)来拟合去趋势
处理后的各区历年油菜单位面积产量[2]。然后利用总体分布的 检验,通过比较
观测值(k)与分位数(c)的大小,选取出各区油菜单产最优的概率分布模型。
3
对于第 3 问,计算纯费率。本文利用问题二中已确定的各区油菜单产量的最
优概率分布模型,运用保险学和概率论等相关知识,将各区概率分布模型代入公
式 5.8 中,通过在 Matlab 中进行积分运算,求得出各区的纯费率。
对于第4问,对结果进行讨论。本文从两个方面进行回答,第一,对前三问
中所得的各地区及全国油菜单产量趋势、概率分布及纯费率进行解释;第二,从
保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度对
问题三中所得纯费率进行优化,从而确定出最优纯费率。
3 模型的假设
3.1 假设所找数据较合理,能够很好的反应全国各省油菜单位面积产量;
3.2 假设油菜花的种植面积等因素不会受到各省份政策上的突然转变;
3.3 假设油菜花的市场需求较稳定,农民不会急剧改变油菜种植要素;
3.4 假设用 10 年各区油菜单产量数据进行卡方检验仍具有一定的参考价值;
3.5 假设卡方统计量的观测值(k)和分位数(c)的差值与拟合相关程度成反比。
4 符号说明
符号 说明
第 i 个地区
第 i 个地区第 j 阶段的纯费率
全国性纯费率
随机误差
̃ 第 t 年的实际单产量
5 模型的建立与求解
5.1 问题一:对某一农作物历史单产数据序列进行去趋势处理
5.1.1 对问题一的分析
由于存在农业技术进步、基础设施改善、劳动者素质提高等因素的作用,农
作物单产序列可能会存在着随时间而增长的趋势。而我们要研究的是农业生产面
对的自然灾害风险,以此为基础厘定合理的农业保险费率,所以要将数据的时间
趋势剔除掉以考察序列的随机性[4]。因此在厘定纯费率之前,需对农作物(油
菜)历史单产数据序列进行去趋势处理。针对问题一,本文将去趋势处理分为四
个步骤:1 判断趋势,2 估计趋势,3 剔除趋势,4 检验趋势。具体流程图见图
5.1。
4
图 5.1 去趋势处理流程图
5.1.2 数据的处理
由于农作物的生长于其所处的地理环境密切相关,所以,本文首先将我国大
陆地区 31 个省份按照地理因素分为 6 区分别记为 Ai(i=1,2..6),具体分类见表
5-1。并通过 EXCEL 软件将收集到的 31 个省份 2003-2012 年油菜单产时间序列数
据(见附录 1)进行统计整理,得到表 5-2。
表 5-1 省份分区表
区域 省份
A1 北京 天津 河北 山西 内蒙古
A2 辽宁 吉林 黑龙江
A3 上海 江苏 浙江 安徽 福建 江西 山东
A4 河南 湖北 湖南 广东 广西 海南
A5 重庆 四川 贵州 云南 西藏
A6 陕西 甘肃 青海 宁夏 新疆
表 5-2 各区油菜单位面积产量表(单位:公斤/顷)
区域 2003 2004 2005 2006 2007
A1 3352 3503 3484 3185 3470
A2 2796 2777 2087 2893 3821
A3 11009 11216 13278 13122 13370
A4 6384 7225 7914 7918 8143
A5 8859 8961 9333 9343 9586
去趋势处理
平稳性检验
回归模拟
剔除趋势
平稳性检验
结束
平
稳
5
A6 7352 8460 7946 8218 8885
2008 2009 2010 2011 2012
A1 3107 3833 3419 3363 3526
A2 5301 4590 3716 4201 4646
A3 14093 14154 14199 13629 13532
A4 8449 7850 8169 7909 7725
A5 9485 9450 9421 8432 10028
A6 7854 8558 9168 9551 10177
5.1.3 模型的建立
1)判断趋势
通过平稳性检验来确定各区是否存在时间趋势,如果是平稳的序列,则不需
再作去趋势处理。下面对 A1 区域进行时间序列分析(代码见附录 2)。整理结果
得到图 5.1 和图 5.2,分别为 A1 区的自相关系数图和油菜单产时序图。由于篇幅
限制,只列出 A1 区的平稳性检测结果,同理对剩下 5 个区进行平稳性分析。综合
各时序图和自相关图,发现 6 个区域的油菜单位面积产量序列不具有平稳性。因
此可以判断原始数据存在时间趋势,有进行去趋势处理的必要。
Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error
0 35618.160 1.00000 | |********************| 0
1 -17847.344 -.50107 | . **********| . | 0.316228
2 5027.112 0.14114 | . |*** . | 0.387576
3 -3508.392 -.09850 | . **| . | 0.392682
4 -3770.596 -.10586 | . **| . | 0.395145
5 7410.580 0.20806 | . |**** . | 0.397971
6 -5793.544 -.16266 | . ***| . | 0.408703
7 164.052 0.00461 | . | . | 0.415126
8 1244.048 0.03493 | . |* . | 0.415131
9 -734.996 -.02064 | . | . | 0.415425
图5.2 A1油菜单位面积产量自相关图
6
图5.3 A1油菜单位面积产量时序图
2)估计趋势
估计农作物单产趋势的方法有很多种,大体分为三类:○1 回归方程模拟法,
○2 滑动平均模拟法,○3 直线滑动平均法。本文采取回归模型模拟法,该方法是通
过建立单产关于时间t的回归方程,来分解时间t对单产的影响。由于单产的时间
趋势是未知的,可能是线性的,也可能是非线性的。所以需要先辨别时间的趋势
方程。通常用来模拟单产时间趋势的方程主要有:直线、指数曲线、对数曲线、
多项式、幂曲线等。在此,假设趋势方程为:
̂ (5.1)
̂ (5.2)
̂ (5.3)
然后分别通过一元线性回归,非线性最小二乘法和Logistic曲线回归来拟合各区
油菜单位面积产量的时间趋势方程。
下面以A1区域为例:
首先,按公式5.1建立一元线性回归方程,利用SAS软件进行建模求解,得到
拟合直线,见图5.3。由表5-3有,Pr>F的值为0.6389远大于0.05,故接受原假设,
认为y与x之间没有显著的线性关系。因此图5.4中回归常数和回归系数的估计值
也没有过多的参考价值。
DC
3100
3200
3300
3400
3500
3600
3700
3800
3900
year
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
7
图5.4 A1区域历年油菜单产量散点图及回归线图
表5-3 A1区域历年油菜单产量方差分析表
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 10282 10282 0.24 .6389
Error 8 345900 43237
C Total 9 356182
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 3362.80000 142.04750 23.67 <.0001
x 1 11.16364 22.89303 0.49 0.6389
图5.5 回归系数与回归常数估计值及显著性检验图
其次,按公式5.2建立指数方程,用非线性最小二乘法求回归参数a及参数b
的值,首先通过将̂ 线性化,得到 ̂ ,令 ̂ 为 为c,从
而建立了x关于w的线性方程。通过对数线性模型算得常数项c(即 )为8.11975,
x的系数b为0.00316.根据非线性最小二乘法规则,以上则通过“线性化”的方法
求出了初值 3360.2. 0.00316.记 这里
及 为待定的数值,其作用是对 和 作出修正,称为步长。然后运用高斯-
牛顿(Gauss-Newton)法,进行建模求解(代码见附录3)。由表5-4及表5-5,
y
3100
3200
3300
3400
3500
3600
3700
3800
3900
x
1 2 3 4 5 6 7 8 9 10
8
得到参数估计值 和 分别为3362.9及0.00328.并且发现Pr>F的值为<0.0001,
远小于0.05,说明拟合效果显著,故根据公式 5-2所建立的方程结果为
̂ ,其中x的范围是1至10的整数,分别代表2003年至2012年。
The NLIN Procedure Iterative Phase
Dependent Variable
Method: Gauss-Newtow
Iter a b Sum of Square
0 3360.2 0.00316 346105
1 3362.9 0.00328 345846
2 3362.9 0.00328 345846
NOTE: Convergence criterion met.
图5.6 非线性最小二乘法迭代过程图
表5-4 最小二乘法参数检验表
Sum of Mean Approx
Source DF Squares Square F Value Pr > F
Regression 2 1.1726E8 58630896 1356.23 <.0001
Residual 8 345846 43230.8
Uncorrected Total 10 1.1761E8
Corrected Total 9 356182
表5-5 最小二乘法参数估计表
Parameter Estimate Std Error Approximate 95% Confidence Limit
a 3362.9 140.6 3038.7 3687.1
b 0.00328 0.00669 -0.0121 0.0187
最后,按照公式5.3建立Logistic曲线方程,利用SAS软件中Logistic曲线回
归,建立模型,拟合历年A1区油菜单位面积产量,并估计出未知参数a和b。根据
( )
(5.4)
算出常数k值为3486.又令 ( ) ,将Logistic方程化为 ̂
用建立线性回归方程的方法得到̂ 后,由 即可得到
所求的非线性回归方程,通过编程解得A为-4.78415,B为0.14303.从而推出a和b
的值分别是0.0084和-0.14303.为了减少回归方程的剩余平方和,接着用非线性
最小二乘法求回归方程中的参数a,b,k.所得结果见表5-6和表5-7,发现Pr>F的值
为0.9545远大于0.05,故拟合曲线不符合公式5.3的形式。
9
表5-6 Logistic曲线回归参数检验表
针对A1区的2003年到2012年油菜单产量的数据,通过三种方式的拟合,发现
油菜单产量的趋势相对来说更符合公式5.2,最终结果为̂ 。同
理,随机抽取A3、A4和A6区域,分别采用这三种趋势方程对油菜的单产序列分布
图进行拟合,经过比较发现时间t的指数方程(̂ )对数据的拟合效果较
好,因此采取时间t的指数方程来估计单产的时间趋势。建立单产的趋势方程如
下:
(5.5)
( ) (5.6)
其中:Yt是真实产量, 是时间趋势产量, ( )是时间t的指数方程式, 和
是随机误差。各区域的指数方程式见表5-8。
表5-8 各区域油菜单产量趋势拟合表
区域 指数方程式
A1 ( )
A2 ( )
A3 ( )
A4 ( )
A5 ( )
A6 ( )
3)剔除趋势
为了将各年份不同生产力水平下的单产量转化到同一生产力水平下的产量,
实现去趋势的目的,本文的具体方法是将个年份的时间趋势产量换算到2012年的
生产因素下。将2012年之前的各年份的实际单产数据加上其时间趋势产量与2012
Sum of Mean Approx
Source DF Squares Square F Value Pr > F
Regression 3 1.1726E8 39085387 0.05 0.9545
Residual 7 351477 50210.9
Uncorrected Total 10 1.1761E8
Corrected Total 9 356182
表5-7 Logistic 曲线回归参数估计表
Parameter Estimate Std Error Approximate 95% Confidence Limits
k 4227.0 1428443 -3373532 3381985
a 0.2399 418.9 -990.4 990.9
b 0.00456 6.5853 -15.5672 15.5764
10
年的差额,以此将各年的单产转换成在2012年的生产力水平下的单产,排除时间
的趋势作用。趋势调整方程如下:
̂ ( ) ( ) (5.7)
其中:̂是趋势调整后的产量, 是作物的真实产量, ( )是时间的趋势方
程。
4)检验趋势
为了了解趋势是否被剔除,本文采用平稳性检验的方法,以观察去趋势处
理后各区油菜单位面积产量是否趋于平稳。首先通过Matlab编程得出各区去趋势
后历年单产量(代码见附录4),得到各区去趋势处理后的历年油菜单产量的数
据见表5-9,然后将得到数据输入SAS以进行平稳性检验。发现去趋势效果较好,
呈现平稳的迹象。下面针对A1区域为例,由图5.6可得A1区经过去趋势处理后,明
显比之前平稳。虽然自相关系数中间有增长,但总体来看呈现趋于0的效果,故
认为此种去趋势处理的效果有效。
表5-9 去趋势后各区油菜单位面积产量表
区域 2003 2004 2005 2006 2007
A1 3453 3593 3563 3253 3527
A2 2897 2867 2166 2961 3878
A3 11111 11306 13357 13190 13427
A4 6485 7315 7993 7986 8200
A5 8960 9051 9412 9411 9643
A6 7453 8550 8025 8286 8942
2008 2009 2010 2011 2012
A1 3152 3867 3442 3374 3526
A2 5346 4624 3739 4212 4646
A3 14138 14188 14222 13640 13532
A4 8494 7884 8192 7920 7725
A5 9530 9484 9444 8443 10028
A6 7899 8592 9191 9562 10177
Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1
1 -0.52380 | . **********| . |
2 -0.22722 | . *****| . |
3 -0.29658 | . ******| . |
4 -0.43828 | . *********| . |
5 -0.16697 | . ***| . |
6 -0.13840 | . ***| . |
7 -0.26258 | . *****| . |
8 -0.18570 | . ****| . |
9 -0.09192 | . **| . |
图5.6 去趋势后A1区油菜单位面积产量自相关图
11
5.2 问题二:对该种农作物单产服从的概率分布进行拟合
5.2.1 对问题二的分析
对所研究的农作物单产服从的概率分布进行拟合,也就是判断出该农作物的
分布模型和具体的参数。由于正态分布的无偏性, 分布的正偏性以及Weibull
分布具有负偏性。所以本文选择正态分布、 分布、Weibull分布三种参数模型利
用极大似然法(MLE)来拟合去趋势处理后的各区历年油菜单位面积产量[7]。然
后通过总体分布的 检验(本打算用AD检验,调用格式见附录5,但由于Matlab
版本的原因无法实现。故在样本总量少的情况下选择卡方检验)对各区的油菜单
产量选取最优的分布模型。
5.2.2 对模型的简介
1)正态分布(Normal distribution)
正 态 分 布 是 具 有 两 个 参 数 和 的 连 续 型 随 机 变 量 的 分 布 , 参 数
是正态分布的随机变量的均值, 是该随机变量的方差,通常记作N( , )。
正态分布的概率密度函数(pdf)为:
( )
√
(
( )
)
其累积分布函数(cdf)为:
( )
√
∫
(
( )
)
2) 分布(Gamma distribution)
分布由两个参数 和 组成,其中 称为形状参数, 称为尺度参数, 和 都
是大于零的正数。且 为随机变量的均值, 为随机变量的方差。
分布的概率密度函数(pdf)为:
( )
( )
其累积分布函数(cdf)为:
( ) ∫ ( )
( )
( )
3)威布尔分布(Weibull distribution)
Weibull分布由形状参数、尺度参数和位置参数决定,它可以通过改变形状
参数的数值而转变成对数正态分布和指数分布。
二参数Weibull分布的概率密度函数(pdf)为:
( ) { ( )
( )
其中λ是形状参数,k是尺度参数。
其累积分布函数(cdf)为:
( )
(( ))
或 ( )
4)总体分布的χ
2
检验
针对于本题,按照假设3.1(10年数据进行卡方检验的结果与大量数据统计
的结果相差不大),所以采用χ
2
检验,。由于样本总量(n=10)较少,在此对x不
12
进行划分(即分为10个互不相交的区间),且频数 均为1.然后通过极大似然法
分别估计出三种分布模型下的未知参数并求出各个概率的估计值̂.通过χ
2
统计
量的估测值
∑
( ̂)
̂
看是否存在某一被估计的未知参数有 ( ),若存在则认为总体X
不服从该种分布。
5.2.3 估计参数分布方程
通过调用Matlab中极大似然估计的程序,对6个地区分别进行了正态分布、
Gamma分布、Weibull分布的参数估计,整理各参数得到表5-10
表5-10 各地区分布模型的参数估计表
地区
Normal分布 Gamma分布 Weibull分布
μ β α λ Κ
A1 3475 196.08 350.95 9.90 3565.1 18.5
A2 3733.6 998.89 14.76 253.03 4100.8 4.5
A3 13211 1117.1 145.43 90.84 13647 19
A4 7819.4 563.22 199.67 39.16 8037.1 21.2
A5 9340.6 431.48 509.69 18.33 9525.9 26.9
A6 8667.7 821.35 125.55 69.04 9033.5 11.5
注:μ和 分别为Normal分布的平均值和标准差,α和β分别为Gamma分布的形状参数和
尺度参数,Κ和λ分别为Weibull分布的形状参数和尺度参数。
根据上表中的参数,各区油菜单产量的概率分布模型构建如下:
A1区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A2区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
13
A3区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A4区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A5区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
A6区油菜单产概率分布模型:
正态分布 ( )
√
(
( )
)
分布: ( )
( )
分布: ( ) ( )
( )
5.2.4 确定最优分布方程
根据以上所建立的分布模型,在SAS软件中利用总体分布的χ
2
检验(代码
见附录6),分别对6个区的3种分布进行检验。由以上通过极大似然所估量的参
数,可以利用Matlab计算出在不同变量X下,理论频数的估计值 ̂,进而制成关
14
于理论频数与实际频数的表格。
表5-11 A1区nx, ̂计算表
x 3453 3593 3563 3253 3527
nx 1 1 1 1 1
A( ̂) 0.0020 0.0017 0.0018 0.0011 0.0020
B( ̂) 0.0021 0.0017 0.0019 0.0011 0.0020
C( ̂) 0.0017 0.0019 0.0019 0.0009 0.0019
x 3152 3867 3442 3374 3526
nx 1 1 1 1 1
A( ̂) 0.0005 0.0003 0.0020 0.0018 0.0020
B( ̂) 0.0005 0.0002 0.0021 0.0019 0.0020
C( ̂) 0.0005 0.0002 0.0017 0.0014 0.0019
注:A、B、C分别代表正态分布,Gamma分布和Weibull分布。
表5-12 A1区各分布下的卡方检验表
分布类型 obs k c
Normal分布 10 9921.79 15.5073
Gamma分布 5 0.006899983 15.5073
Weibull分布 5 0.006507272 15.5073
对剩余5个区进行同样处理,得到卡方检验数据如表5-13.
表5-13 A2-A6区各分布下的卡方检验表
分布类型 obs k c
A2
Normal分布 5 2433.20 15.5073
Gamma分布 5 2530.55 15.5073
Weibull分布 5 2724.68 15.5073
A3
Gamma分布 5 1447.42 15.5073
Weibull分布 5 2099.49 15.5073
A4
Normal分布 5 3156.62 15.5073
Gamma分布 5 4118052.92 15.5073
Weibull分布 5 5396.41 15.5073
A5
Normal分布 5 2955.51 15.5073
Gamma分布 5 2973.72 15.5073
Weibull分布 5 0.000066667 15.5073
A6
Normal分布 5 2410.98 15.5073
Gamma分布 5 2487.71 15.5073
Weibull分布 5 2884.86 15.5073
根据检验结果发现,只有A1区的Gamma分布(0.006899983)和Weibull分布
(0.006507272)以及A5区的Weibull分布(0.000066667)未出现χ
2
统计量的观测值
大于 ( ),即 ( ) .
之所以会产生这样的结果,可能存在以下这两个原因,一是由于样本总量太
少而使检验过于粗糙,随机误差过大;二是由于油菜单产量总体分布不服从所检
15
验的分布。
在此,假设总体分布在一定程度上仍服从所检验的分布,并且可通过比较卡
方检验结果中k与c的差值来判断总体分布于所检验分布的相关显著程度。
通过比较得出,A1区的Gamma分布的χ
2
统计量的观测值(0.006899983)与0.95
分位数(c)的差值比该区Weibull分布(0.006507272)和正态分布(9921.79)
的小,因此,对于A1区,选择Gamma分布。同理,A2区选择正态分布;A3区选择Gamma
分布;A4区选择正态分布;A5区选择Weibull分布;A6区选择正态分布。
整理结果得到各区油菜单产最优概率分布模型如下,
A1区油菜单产的概率分布:
分布: ( )
( )
A2区油菜单产的概率分布:
正态分布 ( )
√
(
( )
)
A3区油菜单产的概率分布:
分布: ( )
( )
A4区油菜单产的概率分布:
正态分布 ( )
√
(
( )
)
A5区油菜单产的概率分布:
分布: ( ) ( )
( )
A6区油菜单产的概率分布:
正态分布 ( )
√
(
( )
)
5.3 问题三:计算纯费率
5.3.1 对问题三的分析
根据保险学有关原理,保险人的纯保费收入应等于期望赔付,纯费率等于保
险人的期望赔付率,在单位面积的保障水平 为1的情况下,纯费率即为单产损
失率的期望值。令长期平均单产(单产的期望)为 y ,以Y 表示实际单产,则单
产损失率为
( ̅ ̃ )
̅
,若以 ( )f y 表示Y 的概率分布密度,则单产损失率的期望,
即纯费率为
∫ *
( ̅ ̃ )
̅
+ ( )
∫ ( ̅ )
̅
( )
̅
( )
根据问题二中已建立的各区油菜单产量的概率分布模型,代入公式5.8中,
即可很好的反应出各区纯费率的数值。
5.3.2 各区纯费率的确定
令各地区纯费率为C1,其中i=1,2,..6分别代表以上各地区。下面以A1区为
16
例,详细介绍该区关于油菜的农业保险纯费率(C1)的确定过程,其余各区的纯
费率见表5-14。
首先利用A1区油菜单产量的概率分布模型, ( )
( )
(其中x表
示该区油菜单位面积的产量, ( )表示该区油菜单产为x时的概率大小),通过
调用Matlab中计算期望的程序(代码见附录5)计算出符合此种分布的期望值,
即下面公式中的 ̅,得到A区单产的期望值 ̅为3475,然后将 ( )中的参数和 ̅的
值代入
∫ ( ̅ )
̅
( )
̅
,通过Matlab求解积分,从而计算出A1区纯费率为0.0461.
表5-14 各地区关于油菜农业保险纯费率汇总表
地区 A1 A2 A3 A4 A5 A6
期望值 3475 3733.6 13211 7819.4 9334.1 8667.7
纯费率(CI) 0.0461 0.1066 0.0942 0.0287 0.0793 0.0378
5.3.3全国纯费率的确定
基于各地区油菜农业保险的纯费率,本文以2012年各地区油菜总产量(单位:
万吨)占当年全国油菜总产量[1]的比率作为权重Hi,加载至各地区纯费率(C1),从
而确定出全国纯费率(表5-15中红色数值)。具体数据见表5-15.
表5-15全国纯费率确定过程表
地区 A1 A2 A3 A4 A5 A6 全国
产量 27.6 0.2 333.7 482.1 379.4 119.5 1342.5
权重 0.0206 0.0001 0.2486 0.3591 0.2826 0.0890 1
纯费率 0.0009 0 0.0234 0.0103 0.0224 0.0034
费率累积 0.0009 0.0009 0.0243 0.0346 0.0570 0.0604 0.0604
5.4 问题四:对结果进行讨论
5.4.1 对问题四的分析
本文打算从两个方面来回答问题四,第一,对前三问中所得的各地区及全国
油菜单产量趋势、概率分布及纯费率进行解释;第二,从保险公司、农民和国家
三个角度对问题三中所得纯费率进行优化,确定出最优纯费率。
5.4.2 对前三问所得数据的解释
针对问题一,发现各地区油菜单产量的时间序列并不平稳,总体上看,呈现
出增加的趋势,说明随着时间的推移,油菜种植技术、劳动者素质等生产要素得
到了发展。经过去趋势处理之后,使得数据转变为在统一生产要素下的各地区单
产量,增加了可比性,从而为纯费率的确定奠定了基础。
针对问题二,利用去趋势处理后的数据,进行的概率分布的拟合,发现不同
区域,油菜单产量不一定服从同一分布,原因可能是由于各地区对油菜种植的重
视度及各地区自然环境的差异等因素,使得油菜单产量变化趋势不同。同时,由
于数据量的匮乏,可能使得油菜单产的实际分布与所拟合的分布并不一样。
针对问题三,通过已拟合的各区油菜单产分布,跟据保险学和概率论知识,
确定出了各区纯费率,然后又根据权重得到一个全国性的纯费率。这样做既减少
了保险公司对各地区油菜农业保险做不同的纯费率调整的麻烦,又满足了政府在
宏观上对全国油菜农业保险的宏观调控。不过,在一定程度上又使得部分地区的
农民在受到自然灾害后,财产损失无法得到100%的补偿。
5.4.3 最优纯费率的讨论
17
从保险公司角度出发,由于农作物受到自然灾害所处时间不同,农民在农作
物受到自然灾害之后,可以选择外出务工等方式来自行减少财产损失,其间并未
对农作物付出任何劳动成本,故并不能一味按照收割之后的单产量为依据来衡量
农民的财产损失,从而得到以上纯费率。为此,将油菜花种植分为3个阶段,在
不同阶段遭遇自然灾害等产生的财产损失采用不同的纯费率。依据百度贴吧等一
些非官方数据[8],得知在种植前期由于栽种、施肥等环节与后期收割、晾晒等
环节会额外增加劳动成本,而种植中期油菜的劳动成本则少。因此,按照40%、
20%、40%的比重对三个阶段的经济效益作出大概评估。从而得到不同阶段的纯费
率,见表5-16。
表5-16 不同阶段各地区纯费率表
第一阶段 第二阶段 第三阶段
A1 0.0184 0.0277 0.0461
A2 0.0426 0.0640 0.1066
A3 0.0377 0.0565 0.0942
A4 0.0115 0.0172 0.0287
A5 0.0317 0.0476 0.0793
A6 0.0151 0.0227 0.0378
全国 0.0242 0.0362 0.0604
从农民角度出发,由于通货膨胀率的存在,使得交保险费时与最终在财产受
到损失时,同样的钱,购买力却降低,因此导致农民的损失补偿并未达到100%。
为此,在以上有益于保险公司的纯费率基础上,按照2012年大陆的通货膨胀率
(6.2%)[9],根据公式5.9
( ) (5.9)
进一步优化纯费率,汇总数据得到表5-17
表5-17 通货膨胀率下不同阶段各地区纯费率表
第一阶段 第二阶段 第三阶段
A1 0.0195 0.0294 0.0490
A2 0.0452 0.0680 0.1132
A3 0.0400 0.0600 0.1000
A4 0.0122 0.0183 0.0305
A5 0.0130 0.0194 0.0324
A6 0.0160 0.0241 0.0401
全国 0.0257 0.0384 0.0641
从国家角度出发,考虑到中国又6亿多人民,首先应该尽量大满足农民的
利益,故接受关于通货膨胀率的影响,并且为了减少通货膨胀率对农民的影响,
将公式5.9中(1+0.062)改为(1+0.062)×(1+0.02),同时又要考虑到保险
公司的可持续发展,因此增加阶段数,按照油菜生长总周期平均分为4个阶段,
每一阶段给予30%、20%、20%、30%的权重,从而得到最优的纯费率,汇总数据后
得到表5-18
表5-18 国家性各地区最优纯费率表
第一阶段 第二阶段 第三阶段 第四阶段
18
A1 0.0176 0.0231 0.0323 0.0461
A2 0.0408 0.0533 0.0746 0.1066
A3 0.0360 0.0471 0.0659 0.0942
A4 0.0110 0.0144 0.0201 0.0287
A5 0.0303 0.0396 0.0555 0.0793
A6 0.0145 0.0189 0.0265 0.0378
全国 0.0181 0.0302 0.0423 0.0604
6 模型的评价与推广
6.1 模型的优点
第一、依据农作物生长特性,按照地理因素将全部省份划分为6个区域,即
保证了数据得到利用,又降低了统计的复杂度。
第二、运用平稳性检验、回归拟合、多分布的极大似然估计、卡方检验,对
各地区油菜单产量进行了详细的分析、拟合和检验。
第三、从国家,农民,保险公司三个角度出发,全面优化纯费率,使得最终
结果满足各方面的需求。
6.2 模型的缺点
第一、数据的采集量不足,使得卡方检验过于粗糙。
第二、区域的划分可能导致不同省份的差异相互抵消。
第三、优化过程中权重的选取过于主观。
6.3 模型的推广
关于本文确定油菜农业保险纯费率的方法可以同样适用于其他经济作物如
柑橘等,同时对于医疗保险、商业保险纯费率的确定都具有一定的参考价值。
参考文献
[1] 中国统计年鉴,http://www.stats.gov.cn/tjsj/ndsj/,2013年4月29日。
[2]郭兴旭,湖北省油菜种植风险与政策性保险研究,华中农业大学硕士学位论
文,2010年。
[3]王克,农作物单产分布对农业保险费率厘定的影响,中国农业科学院硕士学
位论文,2008年。
[4]陈晨,农作物保险费率厘定方法及其政策影响研究,安徽农业大学硕士学位
论文,2009年。
[5]汪晓银 等,数学建模与数学实验,北京:科学出版社,2010年。
[6]邹庭荣 等,数学软件与数学实验,北京:科学出版社,2010年。
[7]余家林 等,多元统计及SAS应用,武汉:武汉大学出版社,2008年。
[8]油菜种植成本调查,http://www.docin.com/p-83165634.html,2013年5月3
日。
[9]2012通货膨涨率,http://news.hexun.com/2012-09-28/146378751.html,
2013年5月3日。
[10]Ahsan, Ali and Kurian. Toward a theory of agricultural insurance.
American Journal of Agricultural Economics, 1982,64:520-529.
[11]Joseph W. Glauber. Crop Insurance Reconsidered.
Amer.J.Agr.Econ.86(Number 5,2004):1179-1195.
19
附录
附录 1 中国各省油菜单位面积产量(单位:公斤/倾)
2012 2011 2010 2009 2008 2007
北 京
天 津
河 北 1436 1312 1335 1469 1293 1323
山 西 991 1048 1062 1448 804 937
内蒙古 1099 1003 1022 916 1010 1210
辽 宁 2071 1950 1995 1980 3438 1621
吉 林
黑龙江 2575 2251 1721 2610 1863 2200
上 海 2150 2195 2161 2303 2180 2168
江 苏 2385 2444 2555 2482 2520 2455
浙 江 1958 1803 1993 2110 2111 1958
安 徽 1917 1935 2186 2092 2096 1984
福 建 1369 1293 1338 1286 1301 1292
江 西 1228 1167 1132 1062 1037 1023
山 东 2525 2792 2834 2819 2848 2490
河 南 2016 2260 2437 2578 2410 2282
湖 北 1931 2005 2029 1972 2085 1915
湖 南 1559 1530 1509 1328 1492 1497
广 东 1181 1171 1111 1006 1353 1358
广 西 1038 943 1083 966 1109 1091
海 南
重 庆 1791 1784 1782 1768 1713 1757
四 川 2223 2166 2134 2137 2041 2119
贵 州 1469 1077 1508 1463 1608 1580
云 南 1900 963 1633 1643 1862 1864
西 藏 2645 2442 2364 2439 2261 2266
陕 西 1887 1847 1831 1870 1762 1694
甘 肃 1794 1816 1753 1762 1608 1644
青 海 1999 1948 2126 2050 1868 1671
宁 夏 2143 1782 1415 1600 1127 1900
新 疆 2354 2158 2043 1276 1489 1976
20
附录 2 平稳性检验代码
goptions vsize=25cm hsize=25cm;
data a;
input DC@@;
year=intnx('year','1jan2003'd,_n_-1);
format year year4.;
cards;
3352 3503 3484 3185 3470 3107 3833 3419
3363 3526
/*A1 区域 2003-2012 年油菜单位面积产量数
据*/
;
run;
proc gplot;
plot DC*year;
symbol v=circle i=join c=blue;
proc arima data=a;
identify var=DC nlag=22;
run;
附录 3 非线性最小二乘法代码
data ex;input x y @@;
cards;
1 3352 2 3503 3 3484 4 3185 5 3470
6 3107 7 3833 8 3419 9 3363 10 3526
;
proc nlin;
parms a=3360.2 b=0.00316;
model y=a*exp(b*x);
der.a=exp(b*x);
der.b=a*x* exp(b*x);
run;
附录 4 去趋势处理后数据代码
y=[3352 3503 3484 3185 3470 3107 3833
3419 3363 3526]; %A1 区原油菜单产量数
据
t=[1 2 3 4 5 6 7 8 9 10];
a= 3362.9*(exp(0.00328*10));
c=3362.9*(exp(0.00328*t));
b=y+a-c %b 即为去趋势处理后A1 区油菜单
产量数据
附录 5 Matlab 中个功能调用格式
AD 检验: [h,p,adstat,cv]=adtest(x)
MLE 正 态 分 布 :
[muhat,sigmahat,muci,sigmaci]=
normfit(x,alpha)
MLE Weibull 分 布 : [phat, pci] =
weibfit(data,alpha)
MLE Gamma 分布: [phat, pci] = gamfit(x,
alpha, options)
期望值 Gamma 分布:[M]=gamstat(a,b)
期望值 正态分布: [M]=normstat(a,b)
期望值 Weibull 分布: [M]=wblstat(a,b)
附录 6 总体分布 检验代码
data ex;input n np@@;
k+(n-np)**2/np;
c=cinv(0.95,8);
cards;
0.0017 0.0019 0.0019 0.0009 0.0019
0.0005 0.0002 0.0017 0.0014 0.0019
/*A1 区 Weibull 分布下的理论频数*/
;
proc print;
var k c;
run;

More Related Content

Featured

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

2013 HZAU

  • 1. 2013年华中农业大学 交叉学科数学建模竞赛 2013 年 4 月 28 日-5 月 2 日 姓 名 何力 学 号 2011307200206 学院/年级/专业 工学院 宿舍/电话 荟五-473 Email/QQ 578505393 参赛编号 2013032 参赛题目(填 A/B) A
  • 2. 1 全国油菜单产量与农业保险纯费率的研究 摘要 我国作为一个农业大国,同时也是一个农业自然灾害频繁而严重的国家。完 善农业保险,合理的厘定纯费率,不仅能减轻农民经济负担,而且能维护社会安 定。本文基于统计中的相关理论,对全国各区纯费率的设定与优化做了一些探讨。 对于第一问,首先将 31 个省市按地理因素分为 6 个区域;然后通过平稳性 检验来判断各区油菜单产的趋势,发现均不平稳;再将各区域通过一元线性回归, 非线性最小二乘法和 Logistic 曲线回归来拟合单产量的时间趋势,并按照公式 5.7 剔除趋势,最终将去趋势后的数据进行整理并再次利用平稳性检验来判断趋 势是否剔除。结果发现去趋势处理之后,各区油菜单产量序列的平稳性显著提高。 对于第二问,首先选取正态分布、γ分布、Weibull 分布三种参数模型,利 用极大似然法(MLE)对去趋势处理之后的各区油菜单产进行拟合,得出不同区 域在不同分布下的参数。然后利用总体分布的 检验,通过比较观测值(k)与分 位数(c)的大小,选取出各区油菜单产最优的概率分布模型。发现第 1、3 区域 服从 Gamma 分布,第 2、4、6 区域服从正态分布,第 5 区域服从 Weibull 分布。 具体参数估计值请见表 5-10。 对于第三问,首先利用问题二中已确定的各区油菜单产量的最优概率分布模 型,运用保险学和概率论等相关知识,将各区概率分布模型代入公式 5.8 中,通 过在 Matlab 中进行积分运算,求得出各区的纯费率,分别为 0.0461,0.1066 0.0942,0.0287,0.0793,0.0378.然后以 2012 年各区油菜总产量占当年全国总产 量的比率为权重,分别加载至各地区的纯费率,从而确定出全国纯费率为0.0604。 对于第四问,从两方面进行考虑,第一,分析了各地区油菜单产量不平稳可 能源于生产技术、劳动者素质的提高,各地区油菜单产具有不同的概率分布模型 可能由于地方政府对油菜种植的重视度及气候因素的不同而导致,以及各区纯费 率与全国纯费率仍可能使部分农民由于地域差异而无法得到 100%补偿;第二, 从保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度 全方位思考,分别对已得纯费率赋予不同的权重而进行优化,见表 5-16,表 5-17, 表 5-18,从而得到不同区域下不同时期的最优纯费率,见表 5-18。 最后,本文对所建立的模型和求解方法的优缺点给出了评价,并结合实际对 模型的推广加以分析。 关键词: 平稳性检验 非线性回归 极大似然法 卡方检验
  • 3. 2 1 问题的背景和研究意义 1.1 问题的背景 农业生产无论是对发达国家还是发展中国家来说,一直都是一种高风险的 活动。其面对的风险不仅包括来自地理环境、气候以及生物系统本身的自然风险, 还有农业投入产出品价格的市场风险。我国作为一个农业大国,同时也是一个农 业自然灾害频繁而严重的国家。如何减少农民的财产损失,维护社会的安定,也 保证保险公司的正常经营,合理厘定保险费率成为农业保险面临的一个实际课题。 1.2 文献综述 对于农业保险费率厘定的研究自从上世纪 80 年代已经得到许多专家学者的 关注研究。庹国柱、丁少群采用指标图重叠法划分风险区域,利用正态函数法计 算各风险区域的费率。但受到当时世界农作物产量分布模型的限制,假定棉花的 生产分布函数是正态分布还有待检验。钟甫宁等利用非参数信息扩散模型对我国 粮食生产风险进行了分析。然而,由于农作物单产不可能无限增大,农作物可能 更符合非正态分布,国外学者们在 90 年代左右提出了多种单产分布的参数模型, 如 Beta 分布、Gamma 分布、Weibull 分布等,并利用极大似然估计,AD 检验等 方法对模型进行了定量分析。其中不少学者的研究方法对于本问题都适用,可以 借鉴过来解决本问题。 1.3 研究意义 对于农业保险费率厘定的研究,有利于减少自然灾害等不可抗拒因素对农民 的经济损失;增加公民保险意识,为保险公司开创一种新的保险模式,同时也降 低社会暴乱的几率,对国家的安定起到非同小可的作用。 2 问题的提出与分析 对于第 1 问,将某种农作物的历史单产数据序列进行去趋势处理。本文收集 了我国各省 2003-2012 年间油菜种植单位面积产量的数据[1],按照地理因素将 全国 31 个省(除港澳台)分为 6 个区域。利用平稳性检验来判断各区油菜单产 量是否存在时间趋势,通过一元线性回归,非线性最小二乘法和 Logistic 曲线 回归来拟合单产量的时间趋势,并按照公式 5.7 剔除趋势,最终将去趋势后的数 据进行整理并再次利用平稳性检验来判断趋势是否剔除。 对于第 2 问,对该种农作物单产服从的概率分布进行拟合。本文选择正态分 布、γ分布、Weibull 分布三种参数模型,利用极大似然法(MLE)来拟合去趋势 处理后的各区历年油菜单位面积产量[2]。然后利用总体分布的 检验,通过比较 观测值(k)与分位数(c)的大小,选取出各区油菜单产最优的概率分布模型。
  • 4. 3 对于第 3 问,计算纯费率。本文利用问题二中已确定的各区油菜单产量的最 优概率分布模型,运用保险学和概率论等相关知识,将各区概率分布模型代入公 式 5.8 中,通过在 Matlab 中进行积分运算,求得出各区的纯费率。 对于第4问,对结果进行讨论。本文从两个方面进行回答,第一,对前三问 中所得的各地区及全国油菜单产量趋势、概率分布及纯费率进行解释;第二,从 保险公司(分时段)、农民(考虑通货膨胀率)和国家(结合两者)三个角度对 问题三中所得纯费率进行优化,从而确定出最优纯费率。 3 模型的假设 3.1 假设所找数据较合理,能够很好的反应全国各省油菜单位面积产量; 3.2 假设油菜花的种植面积等因素不会受到各省份政策上的突然转变; 3.3 假设油菜花的市场需求较稳定,农民不会急剧改变油菜种植要素; 3.4 假设用 10 年各区油菜单产量数据进行卡方检验仍具有一定的参考价值; 3.5 假设卡方统计量的观测值(k)和分位数(c)的差值与拟合相关程度成反比。 4 符号说明 符号 说明 第 i 个地区 第 i 个地区第 j 阶段的纯费率 全国性纯费率 随机误差 ̃ 第 t 年的实际单产量 5 模型的建立与求解 5.1 问题一:对某一农作物历史单产数据序列进行去趋势处理 5.1.1 对问题一的分析 由于存在农业技术进步、基础设施改善、劳动者素质提高等因素的作用,农 作物单产序列可能会存在着随时间而增长的趋势。而我们要研究的是农业生产面 对的自然灾害风险,以此为基础厘定合理的农业保险费率,所以要将数据的时间 趋势剔除掉以考察序列的随机性[4]。因此在厘定纯费率之前,需对农作物(油 菜)历史单产数据序列进行去趋势处理。针对问题一,本文将去趋势处理分为四 个步骤:1 判断趋势,2 估计趋势,3 剔除趋势,4 检验趋势。具体流程图见图 5.1。
  • 5. 4 图 5.1 去趋势处理流程图 5.1.2 数据的处理 由于农作物的生长于其所处的地理环境密切相关,所以,本文首先将我国大 陆地区 31 个省份按照地理因素分为 6 区分别记为 Ai(i=1,2..6),具体分类见表 5-1。并通过 EXCEL 软件将收集到的 31 个省份 2003-2012 年油菜单产时间序列数 据(见附录 1)进行统计整理,得到表 5-2。 表 5-1 省份分区表 区域 省份 A1 北京 天津 河北 山西 内蒙古 A2 辽宁 吉林 黑龙江 A3 上海 江苏 浙江 安徽 福建 江西 山东 A4 河南 湖北 湖南 广东 广西 海南 A5 重庆 四川 贵州 云南 西藏 A6 陕西 甘肃 青海 宁夏 新疆 表 5-2 各区油菜单位面积产量表(单位:公斤/顷) 区域 2003 2004 2005 2006 2007 A1 3352 3503 3484 3185 3470 A2 2796 2777 2087 2893 3821 A3 11009 11216 13278 13122 13370 A4 6384 7225 7914 7918 8143 A5 8859 8961 9333 9343 9586 去趋势处理 平稳性检验 回归模拟 剔除趋势 平稳性检验 结束 平 稳
  • 6. 5 A6 7352 8460 7946 8218 8885 2008 2009 2010 2011 2012 A1 3107 3833 3419 3363 3526 A2 5301 4590 3716 4201 4646 A3 14093 14154 14199 13629 13532 A4 8449 7850 8169 7909 7725 A5 9485 9450 9421 8432 10028 A6 7854 8558 9168 9551 10177 5.1.3 模型的建立 1)判断趋势 通过平稳性检验来确定各区是否存在时间趋势,如果是平稳的序列,则不需 再作去趋势处理。下面对 A1 区域进行时间序列分析(代码见附录 2)。整理结果 得到图 5.1 和图 5.2,分别为 A1 区的自相关系数图和油菜单产时序图。由于篇幅 限制,只列出 A1 区的平稳性检测结果,同理对剩下 5 个区进行平稳性分析。综合 各时序图和自相关图,发现 6 个区域的油菜单位面积产量序列不具有平稳性。因 此可以判断原始数据存在时间趋势,有进行去趋势处理的必要。 Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error 0 35618.160 1.00000 | |********************| 0 1 -17847.344 -.50107 | . **********| . | 0.316228 2 5027.112 0.14114 | . |*** . | 0.387576 3 -3508.392 -.09850 | . **| . | 0.392682 4 -3770.596 -.10586 | . **| . | 0.395145 5 7410.580 0.20806 | . |**** . | 0.397971 6 -5793.544 -.16266 | . ***| . | 0.408703 7 164.052 0.00461 | . | . | 0.415126 8 1244.048 0.03493 | . |* . | 0.415131 9 -734.996 -.02064 | . | . | 0.415425 图5.2 A1油菜单位面积产量自相关图
  • 7. 6 图5.3 A1油菜单位面积产量时序图 2)估计趋势 估计农作物单产趋势的方法有很多种,大体分为三类:○1 回归方程模拟法, ○2 滑动平均模拟法,○3 直线滑动平均法。本文采取回归模型模拟法,该方法是通 过建立单产关于时间t的回归方程,来分解时间t对单产的影响。由于单产的时间 趋势是未知的,可能是线性的,也可能是非线性的。所以需要先辨别时间的趋势 方程。通常用来模拟单产时间趋势的方程主要有:直线、指数曲线、对数曲线、 多项式、幂曲线等。在此,假设趋势方程为: ̂ (5.1) ̂ (5.2) ̂ (5.3) 然后分别通过一元线性回归,非线性最小二乘法和Logistic曲线回归来拟合各区 油菜单位面积产量的时间趋势方程。 下面以A1区域为例: 首先,按公式5.1建立一元线性回归方程,利用SAS软件进行建模求解,得到 拟合直线,见图5.3。由表5-3有,Pr>F的值为0.6389远大于0.05,故接受原假设, 认为y与x之间没有显著的线性关系。因此图5.4中回归常数和回归系数的估计值 也没有过多的参考价值。 DC 3100 3200 3300 3400 3500 3600 3700 3800 3900 year 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
  • 8. 7 图5.4 A1区域历年油菜单产量散点图及回归线图 表5-3 A1区域历年油菜单产量方差分析表 Sum of Mean Source DF Squares Square F Value Pr > F Model 1 10282 10282 0.24 .6389 Error 8 345900 43237 C Total 9 356182 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 3362.80000 142.04750 23.67 <.0001 x 1 11.16364 22.89303 0.49 0.6389 图5.5 回归系数与回归常数估计值及显著性检验图 其次,按公式5.2建立指数方程,用非线性最小二乘法求回归参数a及参数b 的值,首先通过将̂ 线性化,得到 ̂ ,令 ̂ 为 为c,从 而建立了x关于w的线性方程。通过对数线性模型算得常数项c(即 )为8.11975, x的系数b为0.00316.根据非线性最小二乘法规则,以上则通过“线性化”的方法 求出了初值 3360.2. 0.00316.记 这里 及 为待定的数值,其作用是对 和 作出修正,称为步长。然后运用高斯- 牛顿(Gauss-Newton)法,进行建模求解(代码见附录3)。由表5-4及表5-5, y 3100 3200 3300 3400 3500 3600 3700 3800 3900 x 1 2 3 4 5 6 7 8 9 10
  • 9. 8 得到参数估计值 和 分别为3362.9及0.00328.并且发现Pr>F的值为<0.0001, 远小于0.05,说明拟合效果显著,故根据公式 5-2所建立的方程结果为 ̂ ,其中x的范围是1至10的整数,分别代表2003年至2012年。 The NLIN Procedure Iterative Phase Dependent Variable Method: Gauss-Newtow Iter a b Sum of Square 0 3360.2 0.00316 346105 1 3362.9 0.00328 345846 2 3362.9 0.00328 345846 NOTE: Convergence criterion met. 图5.6 非线性最小二乘法迭代过程图 表5-4 最小二乘法参数检验表 Sum of Mean Approx Source DF Squares Square F Value Pr > F Regression 2 1.1726E8 58630896 1356.23 <.0001 Residual 8 345846 43230.8 Uncorrected Total 10 1.1761E8 Corrected Total 9 356182 表5-5 最小二乘法参数估计表 Parameter Estimate Std Error Approximate 95% Confidence Limit a 3362.9 140.6 3038.7 3687.1 b 0.00328 0.00669 -0.0121 0.0187 最后,按照公式5.3建立Logistic曲线方程,利用SAS软件中Logistic曲线回 归,建立模型,拟合历年A1区油菜单位面积产量,并估计出未知参数a和b。根据 ( ) (5.4) 算出常数k值为3486.又令 ( ) ,将Logistic方程化为 ̂ 用建立线性回归方程的方法得到̂ 后,由 即可得到 所求的非线性回归方程,通过编程解得A为-4.78415,B为0.14303.从而推出a和b 的值分别是0.0084和-0.14303.为了减少回归方程的剩余平方和,接着用非线性 最小二乘法求回归方程中的参数a,b,k.所得结果见表5-6和表5-7,发现Pr>F的值 为0.9545远大于0.05,故拟合曲线不符合公式5.3的形式。
  • 10. 9 表5-6 Logistic曲线回归参数检验表 针对A1区的2003年到2012年油菜单产量的数据,通过三种方式的拟合,发现 油菜单产量的趋势相对来说更符合公式5.2,最终结果为̂ 。同 理,随机抽取A3、A4和A6区域,分别采用这三种趋势方程对油菜的单产序列分布 图进行拟合,经过比较发现时间t的指数方程(̂ )对数据的拟合效果较 好,因此采取时间t的指数方程来估计单产的时间趋势。建立单产的趋势方程如 下: (5.5) ( ) (5.6) 其中:Yt是真实产量, 是时间趋势产量, ( )是时间t的指数方程式, 和 是随机误差。各区域的指数方程式见表5-8。 表5-8 各区域油菜单产量趋势拟合表 区域 指数方程式 A1 ( ) A2 ( ) A3 ( ) A4 ( ) A5 ( ) A6 ( ) 3)剔除趋势 为了将各年份不同生产力水平下的单产量转化到同一生产力水平下的产量, 实现去趋势的目的,本文的具体方法是将个年份的时间趋势产量换算到2012年的 生产因素下。将2012年之前的各年份的实际单产数据加上其时间趋势产量与2012 Sum of Mean Approx Source DF Squares Square F Value Pr > F Regression 3 1.1726E8 39085387 0.05 0.9545 Residual 7 351477 50210.9 Uncorrected Total 10 1.1761E8 Corrected Total 9 356182 表5-7 Logistic 曲线回归参数估计表 Parameter Estimate Std Error Approximate 95% Confidence Limits k 4227.0 1428443 -3373532 3381985 a 0.2399 418.9 -990.4 990.9 b 0.00456 6.5853 -15.5672 15.5764
  • 11. 10 年的差额,以此将各年的单产转换成在2012年的生产力水平下的单产,排除时间 的趋势作用。趋势调整方程如下: ̂ ( ) ( ) (5.7) 其中:̂是趋势调整后的产量, 是作物的真实产量, ( )是时间的趋势方 程。 4)检验趋势 为了了解趋势是否被剔除,本文采用平稳性检验的方法,以观察去趋势处 理后各区油菜单位面积产量是否趋于平稳。首先通过Matlab编程得出各区去趋势 后历年单产量(代码见附录4),得到各区去趋势处理后的历年油菜单产量的数 据见表5-9,然后将得到数据输入SAS以进行平稳性检验。发现去趋势效果较好, 呈现平稳的迹象。下面针对A1区域为例,由图5.6可得A1区经过去趋势处理后,明 显比之前平稳。虽然自相关系数中间有增长,但总体来看呈现趋于0的效果,故 认为此种去趋势处理的效果有效。 表5-9 去趋势后各区油菜单位面积产量表 区域 2003 2004 2005 2006 2007 A1 3453 3593 3563 3253 3527 A2 2897 2867 2166 2961 3878 A3 11111 11306 13357 13190 13427 A4 6485 7315 7993 7986 8200 A5 8960 9051 9412 9411 9643 A6 7453 8550 8025 8286 8942 2008 2009 2010 2011 2012 A1 3152 3867 3442 3374 3526 A2 5346 4624 3739 4212 4646 A3 14138 14188 14222 13640 13532 A4 8494 7884 8192 7920 7725 A5 9530 9484 9444 8443 10028 A6 7899 8592 9191 9562 10177 Lag Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 1 -0.52380 | . **********| . | 2 -0.22722 | . *****| . | 3 -0.29658 | . ******| . | 4 -0.43828 | . *********| . | 5 -0.16697 | . ***| . | 6 -0.13840 | . ***| . | 7 -0.26258 | . *****| . | 8 -0.18570 | . ****| . | 9 -0.09192 | . **| . | 图5.6 去趋势后A1区油菜单位面积产量自相关图
  • 12. 11 5.2 问题二:对该种农作物单产服从的概率分布进行拟合 5.2.1 对问题二的分析 对所研究的农作物单产服从的概率分布进行拟合,也就是判断出该农作物的 分布模型和具体的参数。由于正态分布的无偏性, 分布的正偏性以及Weibull 分布具有负偏性。所以本文选择正态分布、 分布、Weibull分布三种参数模型利 用极大似然法(MLE)来拟合去趋势处理后的各区历年油菜单位面积产量[7]。然 后通过总体分布的 检验(本打算用AD检验,调用格式见附录5,但由于Matlab 版本的原因无法实现。故在样本总量少的情况下选择卡方检验)对各区的油菜单 产量选取最优的分布模型。 5.2.2 对模型的简介 1)正态分布(Normal distribution) 正 态 分 布 是 具 有 两 个 参 数 和 的 连 续 型 随 机 变 量 的 分 布 , 参 数 是正态分布的随机变量的均值, 是该随机变量的方差,通常记作N( , )。 正态分布的概率密度函数(pdf)为: ( ) √ ( ( ) ) 其累积分布函数(cdf)为: ( ) √ ∫ ( ( ) ) 2) 分布(Gamma distribution) 分布由两个参数 和 组成,其中 称为形状参数, 称为尺度参数, 和 都 是大于零的正数。且 为随机变量的均值, 为随机变量的方差。 分布的概率密度函数(pdf)为: ( ) ( ) 其累积分布函数(cdf)为: ( ) ∫ ( ) ( ) ( ) 3)威布尔分布(Weibull distribution) Weibull分布由形状参数、尺度参数和位置参数决定,它可以通过改变形状 参数的数值而转变成对数正态分布和指数分布。 二参数Weibull分布的概率密度函数(pdf)为: ( ) { ( ) ( ) 其中λ是形状参数,k是尺度参数。 其累积分布函数(cdf)为: ( ) (( )) 或 ( ) 4)总体分布的χ 2 检验 针对于本题,按照假设3.1(10年数据进行卡方检验的结果与大量数据统计 的结果相差不大),所以采用χ 2 检验,。由于样本总量(n=10)较少,在此对x不
  • 13. 12 进行划分(即分为10个互不相交的区间),且频数 均为1.然后通过极大似然法 分别估计出三种分布模型下的未知参数并求出各个概率的估计值̂.通过χ 2 统计 量的估测值 ∑ ( ̂) ̂ 看是否存在某一被估计的未知参数有 ( ),若存在则认为总体X 不服从该种分布。 5.2.3 估计参数分布方程 通过调用Matlab中极大似然估计的程序,对6个地区分别进行了正态分布、 Gamma分布、Weibull分布的参数估计,整理各参数得到表5-10 表5-10 各地区分布模型的参数估计表 地区 Normal分布 Gamma分布 Weibull分布 μ β α λ Κ A1 3475 196.08 350.95 9.90 3565.1 18.5 A2 3733.6 998.89 14.76 253.03 4100.8 4.5 A3 13211 1117.1 145.43 90.84 13647 19 A4 7819.4 563.22 199.67 39.16 8037.1 21.2 A5 9340.6 431.48 509.69 18.33 9525.9 26.9 A6 8667.7 821.35 125.55 69.04 9033.5 11.5 注:μ和 分别为Normal分布的平均值和标准差,α和β分别为Gamma分布的形状参数和 尺度参数,Κ和λ分别为Weibull分布的形状参数和尺度参数。 根据上表中的参数,各区油菜单产量的概率分布模型构建如下: A1区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( ) A2区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( )
  • 14. 13 A3区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( ) A4区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( ) A5区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( ) A6区油菜单产概率分布模型: 正态分布 ( ) √ ( ( ) ) 分布: ( ) ( ) 分布: ( ) ( ) ( ) 5.2.4 确定最优分布方程 根据以上所建立的分布模型,在SAS软件中利用总体分布的χ 2 检验(代码 见附录6),分别对6个区的3种分布进行检验。由以上通过极大似然所估量的参 数,可以利用Matlab计算出在不同变量X下,理论频数的估计值 ̂,进而制成关
  • 15. 14 于理论频数与实际频数的表格。 表5-11 A1区nx, ̂计算表 x 3453 3593 3563 3253 3527 nx 1 1 1 1 1 A( ̂) 0.0020 0.0017 0.0018 0.0011 0.0020 B( ̂) 0.0021 0.0017 0.0019 0.0011 0.0020 C( ̂) 0.0017 0.0019 0.0019 0.0009 0.0019 x 3152 3867 3442 3374 3526 nx 1 1 1 1 1 A( ̂) 0.0005 0.0003 0.0020 0.0018 0.0020 B( ̂) 0.0005 0.0002 0.0021 0.0019 0.0020 C( ̂) 0.0005 0.0002 0.0017 0.0014 0.0019 注:A、B、C分别代表正态分布,Gamma分布和Weibull分布。 表5-12 A1区各分布下的卡方检验表 分布类型 obs k c Normal分布 10 9921.79 15.5073 Gamma分布 5 0.006899983 15.5073 Weibull分布 5 0.006507272 15.5073 对剩余5个区进行同样处理,得到卡方检验数据如表5-13. 表5-13 A2-A6区各分布下的卡方检验表 分布类型 obs k c A2 Normal分布 5 2433.20 15.5073 Gamma分布 5 2530.55 15.5073 Weibull分布 5 2724.68 15.5073 A3 Gamma分布 5 1447.42 15.5073 Weibull分布 5 2099.49 15.5073 A4 Normal分布 5 3156.62 15.5073 Gamma分布 5 4118052.92 15.5073 Weibull分布 5 5396.41 15.5073 A5 Normal分布 5 2955.51 15.5073 Gamma分布 5 2973.72 15.5073 Weibull分布 5 0.000066667 15.5073 A6 Normal分布 5 2410.98 15.5073 Gamma分布 5 2487.71 15.5073 Weibull分布 5 2884.86 15.5073 根据检验结果发现,只有A1区的Gamma分布(0.006899983)和Weibull分布 (0.006507272)以及A5区的Weibull分布(0.000066667)未出现χ 2 统计量的观测值 大于 ( ),即 ( ) . 之所以会产生这样的结果,可能存在以下这两个原因,一是由于样本总量太 少而使检验过于粗糙,随机误差过大;二是由于油菜单产量总体分布不服从所检
  • 16. 15 验的分布。 在此,假设总体分布在一定程度上仍服从所检验的分布,并且可通过比较卡 方检验结果中k与c的差值来判断总体分布于所检验分布的相关显著程度。 通过比较得出,A1区的Gamma分布的χ 2 统计量的观测值(0.006899983)与0.95 分位数(c)的差值比该区Weibull分布(0.006507272)和正态分布(9921.79) 的小,因此,对于A1区,选择Gamma分布。同理,A2区选择正态分布;A3区选择Gamma 分布;A4区选择正态分布;A5区选择Weibull分布;A6区选择正态分布。 整理结果得到各区油菜单产最优概率分布模型如下, A1区油菜单产的概率分布: 分布: ( ) ( ) A2区油菜单产的概率分布: 正态分布 ( ) √ ( ( ) ) A3区油菜单产的概率分布: 分布: ( ) ( ) A4区油菜单产的概率分布: 正态分布 ( ) √ ( ( ) ) A5区油菜单产的概率分布: 分布: ( ) ( ) ( ) A6区油菜单产的概率分布: 正态分布 ( ) √ ( ( ) ) 5.3 问题三:计算纯费率 5.3.1 对问题三的分析 根据保险学有关原理,保险人的纯保费收入应等于期望赔付,纯费率等于保 险人的期望赔付率,在单位面积的保障水平 为1的情况下,纯费率即为单产损 失率的期望值。令长期平均单产(单产的期望)为 y ,以Y 表示实际单产,则单 产损失率为 ( ̅ ̃ ) ̅ ,若以 ( )f y 表示Y 的概率分布密度,则单产损失率的期望, 即纯费率为 ∫ * ( ̅ ̃ ) ̅ + ( ) ∫ ( ̅ ) ̅ ( ) ̅ ( ) 根据问题二中已建立的各区油菜单产量的概率分布模型,代入公式5.8中, 即可很好的反应出各区纯费率的数值。 5.3.2 各区纯费率的确定 令各地区纯费率为C1,其中i=1,2,..6分别代表以上各地区。下面以A1区为
  • 17. 16 例,详细介绍该区关于油菜的农业保险纯费率(C1)的确定过程,其余各区的纯 费率见表5-14。 首先利用A1区油菜单产量的概率分布模型, ( ) ( ) (其中x表 示该区油菜单位面积的产量, ( )表示该区油菜单产为x时的概率大小),通过 调用Matlab中计算期望的程序(代码见附录5)计算出符合此种分布的期望值, 即下面公式中的 ̅,得到A区单产的期望值 ̅为3475,然后将 ( )中的参数和 ̅的 值代入 ∫ ( ̅ ) ̅ ( ) ̅ ,通过Matlab求解积分,从而计算出A1区纯费率为0.0461. 表5-14 各地区关于油菜农业保险纯费率汇总表 地区 A1 A2 A3 A4 A5 A6 期望值 3475 3733.6 13211 7819.4 9334.1 8667.7 纯费率(CI) 0.0461 0.1066 0.0942 0.0287 0.0793 0.0378 5.3.3全国纯费率的确定 基于各地区油菜农业保险的纯费率,本文以2012年各地区油菜总产量(单位: 万吨)占当年全国油菜总产量[1]的比率作为权重Hi,加载至各地区纯费率(C1),从 而确定出全国纯费率(表5-15中红色数值)。具体数据见表5-15. 表5-15全国纯费率确定过程表 地区 A1 A2 A3 A4 A5 A6 全国 产量 27.6 0.2 333.7 482.1 379.4 119.5 1342.5 权重 0.0206 0.0001 0.2486 0.3591 0.2826 0.0890 1 纯费率 0.0009 0 0.0234 0.0103 0.0224 0.0034 费率累积 0.0009 0.0009 0.0243 0.0346 0.0570 0.0604 0.0604 5.4 问题四:对结果进行讨论 5.4.1 对问题四的分析 本文打算从两个方面来回答问题四,第一,对前三问中所得的各地区及全国 油菜单产量趋势、概率分布及纯费率进行解释;第二,从保险公司、农民和国家 三个角度对问题三中所得纯费率进行优化,确定出最优纯费率。 5.4.2 对前三问所得数据的解释 针对问题一,发现各地区油菜单产量的时间序列并不平稳,总体上看,呈现 出增加的趋势,说明随着时间的推移,油菜种植技术、劳动者素质等生产要素得 到了发展。经过去趋势处理之后,使得数据转变为在统一生产要素下的各地区单 产量,增加了可比性,从而为纯费率的确定奠定了基础。 针对问题二,利用去趋势处理后的数据,进行的概率分布的拟合,发现不同 区域,油菜单产量不一定服从同一分布,原因可能是由于各地区对油菜种植的重 视度及各地区自然环境的差异等因素,使得油菜单产量变化趋势不同。同时,由 于数据量的匮乏,可能使得油菜单产的实际分布与所拟合的分布并不一样。 针对问题三,通过已拟合的各区油菜单产分布,跟据保险学和概率论知识, 确定出了各区纯费率,然后又根据权重得到一个全国性的纯费率。这样做既减少 了保险公司对各地区油菜农业保险做不同的纯费率调整的麻烦,又满足了政府在 宏观上对全国油菜农业保险的宏观调控。不过,在一定程度上又使得部分地区的 农民在受到自然灾害后,财产损失无法得到100%的补偿。 5.4.3 最优纯费率的讨论
  • 18. 17 从保险公司角度出发,由于农作物受到自然灾害所处时间不同,农民在农作 物受到自然灾害之后,可以选择外出务工等方式来自行减少财产损失,其间并未 对农作物付出任何劳动成本,故并不能一味按照收割之后的单产量为依据来衡量 农民的财产损失,从而得到以上纯费率。为此,将油菜花种植分为3个阶段,在 不同阶段遭遇自然灾害等产生的财产损失采用不同的纯费率。依据百度贴吧等一 些非官方数据[8],得知在种植前期由于栽种、施肥等环节与后期收割、晾晒等 环节会额外增加劳动成本,而种植中期油菜的劳动成本则少。因此,按照40%、 20%、40%的比重对三个阶段的经济效益作出大概评估。从而得到不同阶段的纯费 率,见表5-16。 表5-16 不同阶段各地区纯费率表 第一阶段 第二阶段 第三阶段 A1 0.0184 0.0277 0.0461 A2 0.0426 0.0640 0.1066 A3 0.0377 0.0565 0.0942 A4 0.0115 0.0172 0.0287 A5 0.0317 0.0476 0.0793 A6 0.0151 0.0227 0.0378 全国 0.0242 0.0362 0.0604 从农民角度出发,由于通货膨胀率的存在,使得交保险费时与最终在财产受 到损失时,同样的钱,购买力却降低,因此导致农民的损失补偿并未达到100%。 为此,在以上有益于保险公司的纯费率基础上,按照2012年大陆的通货膨胀率 (6.2%)[9],根据公式5.9 ( ) (5.9) 进一步优化纯费率,汇总数据得到表5-17 表5-17 通货膨胀率下不同阶段各地区纯费率表 第一阶段 第二阶段 第三阶段 A1 0.0195 0.0294 0.0490 A2 0.0452 0.0680 0.1132 A3 0.0400 0.0600 0.1000 A4 0.0122 0.0183 0.0305 A5 0.0130 0.0194 0.0324 A6 0.0160 0.0241 0.0401 全国 0.0257 0.0384 0.0641 从国家角度出发,考虑到中国又6亿多人民,首先应该尽量大满足农民的 利益,故接受关于通货膨胀率的影响,并且为了减少通货膨胀率对农民的影响, 将公式5.9中(1+0.062)改为(1+0.062)×(1+0.02),同时又要考虑到保险 公司的可持续发展,因此增加阶段数,按照油菜生长总周期平均分为4个阶段, 每一阶段给予30%、20%、20%、30%的权重,从而得到最优的纯费率,汇总数据后 得到表5-18 表5-18 国家性各地区最优纯费率表 第一阶段 第二阶段 第三阶段 第四阶段
  • 19. 18 A1 0.0176 0.0231 0.0323 0.0461 A2 0.0408 0.0533 0.0746 0.1066 A3 0.0360 0.0471 0.0659 0.0942 A4 0.0110 0.0144 0.0201 0.0287 A5 0.0303 0.0396 0.0555 0.0793 A6 0.0145 0.0189 0.0265 0.0378 全国 0.0181 0.0302 0.0423 0.0604 6 模型的评价与推广 6.1 模型的优点 第一、依据农作物生长特性,按照地理因素将全部省份划分为6个区域,即 保证了数据得到利用,又降低了统计的复杂度。 第二、运用平稳性检验、回归拟合、多分布的极大似然估计、卡方检验,对 各地区油菜单产量进行了详细的分析、拟合和检验。 第三、从国家,农民,保险公司三个角度出发,全面优化纯费率,使得最终 结果满足各方面的需求。 6.2 模型的缺点 第一、数据的采集量不足,使得卡方检验过于粗糙。 第二、区域的划分可能导致不同省份的差异相互抵消。 第三、优化过程中权重的选取过于主观。 6.3 模型的推广 关于本文确定油菜农业保险纯费率的方法可以同样适用于其他经济作物如 柑橘等,同时对于医疗保险、商业保险纯费率的确定都具有一定的参考价值。 参考文献 [1] 中国统计年鉴,http://www.stats.gov.cn/tjsj/ndsj/,2013年4月29日。 [2]郭兴旭,湖北省油菜种植风险与政策性保险研究,华中农业大学硕士学位论 文,2010年。 [3]王克,农作物单产分布对农业保险费率厘定的影响,中国农业科学院硕士学 位论文,2008年。 [4]陈晨,农作物保险费率厘定方法及其政策影响研究,安徽农业大学硕士学位 论文,2009年。 [5]汪晓银 等,数学建模与数学实验,北京:科学出版社,2010年。 [6]邹庭荣 等,数学软件与数学实验,北京:科学出版社,2010年。 [7]余家林 等,多元统计及SAS应用,武汉:武汉大学出版社,2008年。 [8]油菜种植成本调查,http://www.docin.com/p-83165634.html,2013年5月3 日。 [9]2012通货膨涨率,http://news.hexun.com/2012-09-28/146378751.html, 2013年5月3日。 [10]Ahsan, Ali and Kurian. Toward a theory of agricultural insurance. American Journal of Agricultural Economics, 1982,64:520-529. [11]Joseph W. Glauber. Crop Insurance Reconsidered. Amer.J.Agr.Econ.86(Number 5,2004):1179-1195.
  • 20. 19 附录 附录 1 中国各省油菜单位面积产量(单位:公斤/倾) 2012 2011 2010 2009 2008 2007 北 京 天 津 河 北 1436 1312 1335 1469 1293 1323 山 西 991 1048 1062 1448 804 937 内蒙古 1099 1003 1022 916 1010 1210 辽 宁 2071 1950 1995 1980 3438 1621 吉 林 黑龙江 2575 2251 1721 2610 1863 2200 上 海 2150 2195 2161 2303 2180 2168 江 苏 2385 2444 2555 2482 2520 2455 浙 江 1958 1803 1993 2110 2111 1958 安 徽 1917 1935 2186 2092 2096 1984 福 建 1369 1293 1338 1286 1301 1292 江 西 1228 1167 1132 1062 1037 1023 山 东 2525 2792 2834 2819 2848 2490 河 南 2016 2260 2437 2578 2410 2282 湖 北 1931 2005 2029 1972 2085 1915 湖 南 1559 1530 1509 1328 1492 1497 广 东 1181 1171 1111 1006 1353 1358 广 西 1038 943 1083 966 1109 1091 海 南 重 庆 1791 1784 1782 1768 1713 1757 四 川 2223 2166 2134 2137 2041 2119 贵 州 1469 1077 1508 1463 1608 1580 云 南 1900 963 1633 1643 1862 1864 西 藏 2645 2442 2364 2439 2261 2266 陕 西 1887 1847 1831 1870 1762 1694 甘 肃 1794 1816 1753 1762 1608 1644 青 海 1999 1948 2126 2050 1868 1671 宁 夏 2143 1782 1415 1600 1127 1900 新 疆 2354 2158 2043 1276 1489 1976
  • 21. 20 附录 2 平稳性检验代码 goptions vsize=25cm hsize=25cm; data a; input DC@@; year=intnx('year','1jan2003'd,_n_-1); format year year4.; cards; 3352 3503 3484 3185 3470 3107 3833 3419 3363 3526 /*A1 区域 2003-2012 年油菜单位面积产量数 据*/ ; run; proc gplot; plot DC*year; symbol v=circle i=join c=blue; proc arima data=a; identify var=DC nlag=22; run; 附录 3 非线性最小二乘法代码 data ex;input x y @@; cards; 1 3352 2 3503 3 3484 4 3185 5 3470 6 3107 7 3833 8 3419 9 3363 10 3526 ; proc nlin; parms a=3360.2 b=0.00316; model y=a*exp(b*x); der.a=exp(b*x); der.b=a*x* exp(b*x); run; 附录 4 去趋势处理后数据代码 y=[3352 3503 3484 3185 3470 3107 3833 3419 3363 3526]; %A1 区原油菜单产量数 据 t=[1 2 3 4 5 6 7 8 9 10]; a= 3362.9*(exp(0.00328*10)); c=3362.9*(exp(0.00328*t)); b=y+a-c %b 即为去趋势处理后A1 区油菜单 产量数据 附录 5 Matlab 中个功能调用格式 AD 检验: [h,p,adstat,cv]=adtest(x) MLE 正 态 分 布 : [muhat,sigmahat,muci,sigmaci]= normfit(x,alpha) MLE Weibull 分 布 : [phat, pci] = weibfit(data,alpha) MLE Gamma 分布: [phat, pci] = gamfit(x, alpha, options) 期望值 Gamma 分布:[M]=gamstat(a,b) 期望值 正态分布: [M]=normstat(a,b) 期望值 Weibull 分布: [M]=wblstat(a,b) 附录 6 总体分布 检验代码 data ex;input n np@@; k+(n-np)**2/np; c=cinv(0.95,8); cards; 0.0017 0.0019 0.0019 0.0009 0.0019 0.0005 0.0002 0.0017 0.0014 0.0019 /*A1 区 Weibull 分布下的理论频数*/ ; proc print; var k c; run;