搜索
您的当前位置:首页正文

2021年数学建模大赛一等奖作品

来源:易榕旅网
数学建模论文

欧阳光明(2021.03.07) 队伍成员 姓名 院、系、专业 交通与物流工程 交通与物流工程 交通与物流工程 联系方式 高速公路道路交通事故分析预测

摘要

我国目前的道路交通安全状况相对于世界水平要差得多,高速公路道路交通事故所造成的损失非常高。因此,改善交通安全状况、预防和减少高速公路交通事故具有重大的现实意义。针对这样的现状,我们必须进行高速公路交通事故的预测,从而及早采取措施进行预防工作,从而减少事故发生次数及损失程度。

针对此次建模的要求,在对此问题的深入研究下,我们提出了合理的假设,将本问题归结为一个预测分析的问题,其基本思想是通过聚类分析、SPSS软件求解、GM(1,1)灰色预测模型、多元线性回归分析,组合模型等方法的运用得到最优的预测结果。

针对问题一,我们首先运用了聚类分析的思想,建立了基于聚类分析的模型Ⅰ,通过聚类分析方法对给定的信息的筛选、加工、延伸和扩展,从而将评价对象确定在某一范围内,通过了该方法,最终得到了各类评价等级方法,为科学预测交通事故提供了依据。

*欧阳光明*创编 2021.03.07

针对问题二,本文选取受伤人数这一单项指标作为预测的对象,首先运用了GM(1,1)灰色预测模型,建立模型Ⅱ,通过对给定的事故原始数据,通过MATLAB软件预测了五年内的交通事故受伤人数;运用多元线性回归方法建立模型Ⅲ,在模型Ⅱ和模型Ⅲ的基础之上,通过基于组合模型思想的模型Ⅳ,求解得出了交通事故受伤人数在五年内的预测。

关键词:SPSS聚类分析GM(1,1)灰色预测模型组合预测模型 MATLAB 目录

一.问题重述错误!未定义书签。 二.问题的分析3

三.模型假设与符号系统5

3.1模型假设5 3.2符号系统5

四.模型的建立及求解6

4.1 问题一6

4.1.1建立模型Ⅰ6

4.1.2模型Ⅰ的求解及结果7 4.1.3实验结果的分析说明8 4.2 问题二10

4.2.1建立GM(1,1)模型Ⅱ10

4.2.2 用MATLAB求解模型Ⅱ16 4.2.3 建立模型Ⅲ18

4.2.4 建立优化模型Ⅳ18

4.2.5最优组合模型的求解19

五.模型的评价20 参考文献21 附录22

一.问题重述

随着道路交通事业的发展,高速公路交通事故也在不断增加,对人类的生命和财产安全构成了极大的威胁。我国目前的道路

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

交通安全状况相对于世界水平要差得多,高速公路道路交通事故所造成的损失非常高。因此,改善交通安全状况、预防和减少高速公路交通事故具有重大的现实意义。

高速公路交通事故往往造成人员伤亡,车辆损毁、道路堵塞等严重后果,为探索高速公路道路交通事故发生的规律,分析现有道路交通条件下未来高速公路交通事故的发展趋势,以便及早采取措施进行预防,减少事故发生次数及损失程度,必须进行高速公路交通事故预测。另外,高速公路道路交通事故分析预测是道路交通安全规划,决策及高速公路交通工程项目效益评价中的一个关键性问题,分析预测正确与否直接关系到高速公路交通设施的建设,高速公路交通管理政策的制定和高速公路交通建设资金的投资分配,具有重要的现实意义。

为了解决此问题,现利用已收集到的A省高速公路交通事故数据(见附件)、建立针对该省具体情况的数学模型,预测该省未来的交通事故情况,解决下面几个问题:

1、目前国内外用于统计道路交通事故状况的四项绝对指标为交通事故次数、死亡人数、受伤人数以及直接经济损失,这四项统计指标既是认识交通事故的起点,又是构造其它交通事故统计指标的基础,基本涵盖了道路交通事故所造成各种损害的主要方面,因此选用这四项指标,试探讨以聚类分析作为理论基础的高速公路公路交通事故统计分析方法,然后从附件中所给A省高速公路交通事故四项指标的历史统计数据出发,对该省公路交通事故进行聚类分析研究,以期该省获得该省高速公路交通事故基于四项指标的时

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

间、空间分布规律。

2、高速公路交通事故预测是高速公路安全评价、规划及决策的基础,国内外关于道路交通事故的预测有多种方法,鉴于高速公路交通事故具有复杂性、随机性和灰色性的基本特征,对高速公路公路交通事故预测时选用时间序列分析,灰色分析、神经网络等分析方法。根据高速公路交通事故的分布规律,构建高速公路交通事故发生次数、死亡人数、受伤人数、直接经济损失的预测模型。以A省公路交通事故的历史统计数据为基础,就模型精度等级的划分和预测的准确性作进一步的分析,探讨建立组合模型或提高预测准确性的其它解决方案,最后对A省公路交通事故未来五年的发展趋势做出科学预测,为高速公路交通安全管理部门提前预防和控制交通事故提供决策依据。 二.问题的分析 2.1(问题一)

本小问主要解决对该省公路交通事故四项指标进行的聚类分析。此小问属于统计问题,因此由附件的相关数据信息,我们首先将附件中高速公路事故24时分布、月统计、辖区统计进行整理,得出四项指标在六年中小时段、月份、辖区分布总量。

本问题主要解决该省高速公路交通事故基于四项指标的时间、空间分布规律。本问题为聚类分析的思想,由题目可以知道对于A省高速公路交通事故分布规律需要分别对四项指标进行聚类分析,找出各个指标内的能够度量不同小时段、不同月份、不同辖区之间的相似度的统计量。并将其聚合到不同类中。

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

因此,用SPSS的K-means Cluster过程即逐步聚类法,按照预定的分类数量,按照既定的原则选择凝聚点,得到一个初始分类方案,并计算出各个初始分类的中心位置(均值);最后,使用计算出的中心位置重新进行聚类,因此在该方法中,各指标的分类情况会在运算中不断改变,分类完毕后再次计算各类的中心位置。如此反复循环,直到凝聚点位置改变很小为止。 2.2 (问题二)

由对题目的第二问分析,可知第二问分为两小问。

第一小问:选用灰色分析、多元线性回归分析等分析方法构建高速公路交通事故受伤人数预测模型。交通事故作为一个随机事件,其本身具有相当大的偶然性和模糊性;具有明显的不确定性特征。因此可以认为一个地区的道路交通安全系统是一个灰色系统,可以应用灰色系统的理论进行研究。用G(1,1)灰色建立受伤人数指标的预测模型,在GM(1,1)模型及相关模型灰色预测过程中要大量进行数列和矩阵运算将MATLAB软件和GM(1,1)结合,实现灰色预测算法;建立多元线性回归模型。

第二小问:本小问为优化问题,就模型精度等级的划分和预测的准确性作进一步的分析,探讨建立组合模型或提高预测准确性的其它解决方案,最后对A省公路交通事故未来五年的发展趋势做出科学预测。

对四项指标分别用灰色分析和多元线性回归模型结果进行精确度比较,并且构建最优组合预测模型。利用以上两种不同的单项预测法对受伤人数指标进行预测,然后对各个单独的预测结果做适当

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

的加权平均,最后取其加权平均值作为最终的预测结果。本文采用简单实用的求方差极小值法,获得组合预测模型。 三.模型假设与符号系统 3.1模型假设

(1)假设在受伤人数统计时,以伤残等级三级以上归为受伤。 (2)假设在财产损失统计时,所损失的物资、费用等均按现社会流通价值或社会人力服务成本的平均值进行统计。

(3)根据其同一指标中的个体有较大的相似性,不同类中的个体差异较大,用聚类方法聚合时,将其聚合在3类中。

(4)假设高速路上行驶的车辆状况、驾驶员心理状态良好。 3.2符号系统

Xij表示第i个指标在第j年的给定值;

x(0)(k)实际给定的第X(1)k年的死亡人数:其中k=1,2,…6;

的一次累加生成序列;

为X(1)的紧邻均值生成序列待定参数列;

z(1)B为数据矩阵

,为待估参数;

Y为数据向量;

a为待定参数列;

qk为生成残差;

q为残值均值;

s12为原始数据的方差;

2s2为残值的方差;

C为后验差比值;

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

P为小误差概率;

f3为组合模型使用;

f2为多元线性回归预测值; f1为灰色理论预测值;

2为多元线性回归预测的预测误差; 1为灰色理论预测的预测误差;

2多元线性回归的相应权系数;

1灰色理论模型的相应权系数;

MSPE为均方百分比误差; 四.模型的建立及求解 4.1 问题一

4.1.1建立模型Ⅰ

聚类分析法是根据实物本身的特性来定量研究分析问题的一种统计分析方法。其基本思想是同一类中的个体有较大的相似性,不同类中的个体差异较大,于是更具一批样品的多个观测指标,找出能够度量样品(或变量)之间相似度的统计量,并以此为依据,采用聚类发将所有的样品(或变量)分别聚合到不同的类中。

将分析评价中的n个待评样本作为聚类对象(Xi)(i=1,2,…,n);m个;评价指标作为聚类指标(Uj)(j=1,2,…,m),s个评价标准作为评价等级(Zk)(k=1,2,…,s).则根据第i个聚类独享对于第j个聚类指标的样本值Xij,确定聚类样本矩阵为X :

以一年十二个月的数据分析为例:在对给定的原始收据通过Excel整理的基础上我们建立了针对交通事故每月的聚类分析模型。将分析评价中的12个待评样本作为聚类对象(Xi)(i=1,2,…,12);4

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

个;评价指标作为聚类指标(Uj)(j=1,2,3,4),我们设定为三类分类标准,则聚类样本矩阵为: 4.1.2模型Ⅰ的求解及结果

在建立了聚类分析的模型的基础上,我们采用了SPSS软件来对模型进行求解,SPSS的优点是计算量较小,从而可以有效的处理多变量、大样本数据而不会占用过多的内存空间和计算时间;同时在分析时用户可以人为地制定初始中心位置,或者将曾做过的聚类分析结果作为初始位置引入分析。通过计算得得出下面的实验数据结果:

表4.1初始聚类中心

聚类

1 2 3

次数 45.00 45.00 36.00 死亡人数 26.00 35.00 27.00 受伤人数 41.00 50.00 36.00 经济损失 1012394.00 1263204.00 738204.00 表4.2最终聚类结果

案例号 月份 聚类 距离

一月 1 1 2867.600 二月 2 1 114864.429 三月 3 3 180.068 四月 4 2 3051.507 五月 5 1 37387.572 六月 6 1 71712.429 七月 7 2 3051.507 八月 8 1 69137.572 九月 9 1 37496.430 十月 10 1 114680.572 十一月 11 3 14556.001 十二月 12 3 14736.001 表4.4每个聚类中的案

例数

聚类 1 7.000

2

3

2.000 3.000

*欧阳光明*创编 2021.03.07

有效 缺失

*欧阳光明*创编 2021.03.07 12.000 .000

4.1.3实验结果的分析说明

(1)表2.2显示的是将样品分为三类的聚类结果,这三类分别是:一月、四月、十一月。

(2)表2.3表示的是最终的聚类分析结果。

(3)表2.4反映了聚类分析中的有效样品数为12个,没有样品数的缺失。

综上得出聚类分析的结论(三月、十一月、十二月)为交通事故最轻的,(一月、二月、五月、八月、九月、十月)为交通事故一般的,(四月、七月)为交通事故最为严重的。

同理我们得出了一天中二十四小时以及每个辖区的数据分析结果如下表所示:

表4.5以辖区为单位的数据结果分析

案例号 辖区 1 2 3 4 5 6 7 8 9 10 11 12 13 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区 辖区

聚类 3 2 3 3 3 3 3 2 3 3 3 2 3 距离 128890.469 344284.505 96888.462 214476.540 39959.539 201362.539 234361.540 150913.502 258343.466 233859.540 112157.462 100373.508 149838.462

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

14 15 16 17 18

表4.6最终聚类中心 次数

聚类 1 137.00 2 48.25 27.25 46.50

3 16.31 11.62 18.38 辖区 辖区 辖区 辖区 辖区

3 3 3 2 1 286803.462 66440.462 175342.540 92997.504 .000

死亡人数 110.00 受伤人数 176.00 经济损失 4721128.00 1015373.50 238676.54 得出分析结果:

(1)表2.6显示将分类对象区域分为三个等级。

(2)表2.5(一区、三区、四区、五区、六区、七区、九区、十区、十一区、十三区、十四区、十五区、十六区)为所辖区范围内交通事故最轻的、(二区、八区、十二区、十七去)为辖区范围内交通事故一般的区域、(十八区)是辖区范围内交通事故最为严重的。

(3)表2.5显示有效数据位十八个,没有数据缺失。 表4.7以小时为单位的最终聚类结果

案例号 1 2 3 4 5 6 7 8 9

小时 聚类 距离 0-1时 1 41531.125 1-2时 1 52677.126 2-3时 1 55879.876 3-4时 1 81456.125 4-5时 2 47286.000 5-6时 2 47286.000 6-7时 1 62299.875 7-8时 1 57623.125 8-9时 3 74947.072

*欧阳光明*创编 2021.03.07

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

*欧阳光明*创编 2021.03.07 9-10时 1 102944.87

6

10-11时 3 101939.07

3

11-12时 3 22358.929 12-13时 3 4205.074 13-14时 3 89233.929 14-15时 3 12656.073 15-16时 3 98614.072 16-17时 3 25122.929 17-18时 3 71976.929 18-19时 3 77094.929 19-20时 3 103017.92

9

20-21时 3 54255.929 21-22时 3 114598.07

2

22-23时 3 36102.072 23-24时 1 12162.875

表4.8 以小时为聚类对象的最终聚类中心 聚类

1 2 3

事故次26.50 33.00 18.93 数

死亡人20.63 23.50 11.29 数

受伤人28.50 31.00 22.14 数

经济损661234.88 892427.00 343619.93 失

分析可得,在对以小时为聚类对象的分析中:表2.8显示以小时为分类对象划分为三个等级。表2.7显示在(08:00-09:00、10:00-23:00、)为交通事故发生最轻的小时段(04:00-06:00)为交通事故发生程度最为严重的小时段;(00:00-04:00、06:00-08:00、09:00-10:00、23:00-24:00)为交通事故发生程度一般的小时段。 4.2 问题二

4.2.1建立GM(1,1)模型Ⅱ

交通事故作为一个随机事件,其本身具有相当大的偶然性和模糊

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

性;如果把某地区的道路交通作为一个系统来看,则此系统中存在着一些确定因素(灰色系统称为白色信息),如道路状况、信号标志等;同时也存在一些不确定因素(灰色系统称为灰色信息),如车辆状况、气候因素、驾驶员心理状态等等,具有明显的不确定性特征。因此可以认为一个地区的道路交通安全系统是一个灰色系统,可以应用灰色系统的理论进行研究。 高速公路交通事故灰色预测的特点分析

高速公路交通事故灰色预测的原理、方法及所具有的特点表现在:

(1)灰色预测方法认为,某一地区在某一时间区间内的交通事故指标值,是在一定范围内变化的且与时间坐标有关的灰色量。该方法将原始数据整理成较有规律的生成数列后再进行研究、处理,避免了概率统计方法的大样本、大工作量而其结果不理想的状况。

(2)数学模型GM(1,1)是一阶单变量微分方程;这与以往的概率统计方法利用高散数据所建立的按时间作逐段分析、递推、高散的模型有本质的区别。

(3)GM(1,1)灰色预测模型不是交通事故原始数学模型,而是生成数据序列模型;通过对生成数列的处理,使杂乱无章的原始数据呈现出一定的规律性。

MATLAB的基本数据单位是矩阵,其核心也是矩阵,它可直接进行矩阵的乘积、矩阵的乘方、矩阵的除法、稀疏矩阵等运掣”。在MATLAB语言系统中,几乎所有的操作都是以矩阵操作为基础,用户可以用类似于数学公式的方法编写程序实现算法,大大降低了编

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

程所需的难度并节省了时间。而在GM(1,1)模型及相关模型的灰色预测过程中,要大量进行数列和矩阵运算嘲,这晗好使MATLAB派上了用场。将MATLAB和GM(1,1)模型结合,实现灰色预测算法,恰到好处。

灰色预测模型GM(1,1)的建立过程 GM(1,1)的一般形式

设有变量X(0)={X(0)(i),i=1,2,...,n} (1) 为某一预测对象的非负单调原始数据列,为建立灰色预测模型:首先对X(0)进行一次累加(1—AGO, Acumulated Generating Operator)生成一次累加序列:

X(1)={X(1)(k),k=1,2,…,n} (2)

其中

X(k)=X(0)(i) (k=1,2,3…n)

i1(1)

k%作1—AGO生成序列 x1 For i=1:n

X1(i)=sum(x0(1:i)); End

对X(1)可建立下述白化形式的微分方程:

dX(1)dt十aX(1)=u ,式中a,u是待定系数。 (3)

灰微分方程动态模型为:

x0kaz1ku (4)

式中z1k为x1k的紧邻均生成,即

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

%紧邻均生成

For k=2:n %%紧邻均生成z

z(k)=0.5*x1(k)+0.5*x1(k-1);

end

(2)构造矩阵B和数据向量Yn

x和x满足关系YnBa,其中:

01(1)(1)2(X(1)X(2)) 1(0)(0)(0)T

1B=Yn=(X(2), X(3),…, X(n)) (1)(1)-(X(2)X(3)) 12  ... 1(1)- (X(n-1)X(1)(n)) 1 21(3)计算系数a和u

x02z12101x3z31a(5) u01xnzn1YnBa可用(5)式表示,由此计算出系数a和u

for i=1:n-1 b(i,1)=-z(i+1); y(i)=x0(i+1); end b(:,2)=1;

y=y’; %转置为列向量

au=b\\y; %作矩阵除法,计算a u

(4) 累加模型预测结果

X(1)(k)=(X(0)(1)-

ua(k1)u)e+(6) aa*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

%计算GM(1,1)模型X(1)(k)值 Yc1(1)=x0(1); For k=1:n

C=x0(1)-au(2)/au(1);

Yc1(k+1)=c*exp(-au(1)*k)+au(2)/au(1);

End

(5)还原后的预测结果(作IAGO) (7) %计算xk1值,显示预测结果 Yc0(1)=x0(1); For k=1:n

Yc0(k+1)=yc1(k+1)-yc1(k); End

Disp(uint16(yc0(2:1:n+1)));

2、检验和判断GM(1,1)模型的精度

为确保所建灰色模型有较高的精度能应用于预测实际,按灰色理论一般采用三种方法检验判断GM(1,1)模型的精度,它们是,残差大小检验;关联度检验和后验差检验。通常关联度要大于0.6,残差Pk、方差c越小,模型精度P越好。

(1)

0残差检验

0残差检验:e(k)=xkxk

0ek相对误差:x0k

(2)关联度检验

因分辨系数毛是在(0,1)中取定的实数,一般取=0.5。关联度是各关联系数£(k)累加后在n维空间的平均值。当分辨系数§

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

=0.5,认为关联度大于0.6时可以接受,即通过关联度检验,否则关联程度差些。

%计算关联度 Max1=max(abs(e0)); r=1; for k=2:n

r=r+0.5*max1/(abs(e0(k))+0.5*max1); end

r=r/n; % r表示关联度

(2)

方差比和小误差概率检验

方差和小误差概率检验属后验差检验,计算公式分别如下: 1n预测误差均值 eei

ni1x0原始数据均值

1n0xini1

n010xix原始数据标准差:S1ni11nSeie预测数据标准差 2ni1 22

S2方差比:CS1

小误差概率:Ppeke0.6745S1

 表4.9 P、C预测精度表

精度等级

P C

一 >0.95 <0.35

二 >0.8 <0.45

三 >0.7 <0.65

四 0.7 0.65

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

由P和C的值检验GM(1,1)模型的预测精度,以提供决策依据。精度等级越小越好,精度一致,表示预测具有较高的精度,四级为不通过。模型精度等级由表1所示。

%方差和小误差概率检验 If p>0.95&c<0.35 Disp(‘ 预测精度好‘); Else if p>0.8&<0.5 Disp(‘ 预测合格‘); Else if p>0.7&<0.65

Disp(‘ 预测勉强合格‘); else

Disp(‘ 预测不合格‘); End End End

4.2.2 用MATLAB求解模型Ⅱ

根据题目给定四项指标要求,我们选择采用灰色预测模型来预测交通事故受伤人数,其中交通事故死亡人数在2006年到2011年的数据如下表2所示:

4.10 为2006年到2011年交事故受伤人数

年份 2006 死亡人数 738 2007 695 2008 660 2009 563 2010 504 2011 431 2006-2011年的A省高速道路事故受伤人数的原始序列为:

由此可得生成数列为: 其数据矩阵B为:

在MATLAB中计算可得:

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

数据向量为: 可得待定参数列为: 则预测模型为:

最后需要进行还原处理,作“生成数列”的逆运算,即进行还原处理得到交通事故受伤人数的预测模型。

因为

011k1,k1,2,,n XkXkX所以

利用MATLAB软件得出X1(k)和X0(k)的取值:

表4.11 GM(1,1)预测模型计算一览表

年份 k

X1k

2006 738

2007 1 1450.7 712.12 695 2012 6 3983.8

2008 2 2083.8 633.11 660 2013 7 4334 350.18 387.319

2009 3 2642.6 562.4 563 2014 8 4625 311.07 433.523

2010 4 3145.8 499.58 504 2015 9 4921.4 276.32 304.675

2011 5 3589.6 443.78 431 2016 10 5166.8 245.46 270.244

X0k即

预测序列

原始值 738 预测值 年份 k X1k

X0k即预测394.21

序列 原始值 预测值

436.701

MATLAB软件的出预测分析图,如下表所示:

图4.1 MATLAB 预测分析图

残差检验和后验差检验,其结果为: 方差比 C=0.435<0.45 合格 小误差概率 P=1>0.95 好

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

上述结果说明建立的灰色预测模型通过检验,且模型的精度为I 级,精度好。(参照表1) 4.2.3 建立模型Ⅲ

多元线性回归模型可以用于预测对象Y受多个因素

X1,X2,X3,XP影响的情况。P元线性回归模型:

用最小二乘估计法求未知参数0,1,p的最小二乘估计。 记 QQ0,1,,Pyi01xi1pxip

2Q2yi01xi1pxip00j1,2,3,p 令 Q2yi01xi1pxip0,j整理的正规方程组(3):

n0xi11xippyi2xi10xi11xi1xippxi1yi(3) 22xip0xipxippxipyi1其解记为

0,1,,p,即为

0,1,,p的最小二乘估计。

从而P元线性回归方程(4): 4.2.4 建立优化模型Ⅳ

基于以上两种预测模型建立优化组合模型

组合预测就是利用以上两种不同的单项预测法对同一预测对象进行预测,然后对各个单独的预测结果做适当的加权平均,最后取其加权平均值作为最终的预测结果。

目前关于权系数的计算方法很多,主要分为主观赋值法、客观赋值法、试算比较法,客观赋值法就是根据一定的理论或标准通过代数

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

计算等确定权值,例如误差绝对值之加权和最小法、误差平方和最小法、方差极小值法等,本文采用求方差极小值法,该方法简单实用,掌握起来也不难。

设f1是灰色GM(1,1)的预测值,f2是多元回归预测值,f3是最优组合预测值,预测误差分别为1,2,3,取1 和是相应权系数,

2

且1,有f3f1f2

1212则误差ε及方差D分别为

关于对D(3)求极小值,可得11D(2)cov(1,2)

D(1)D(2)2cov(1,2)显然可取,cov(1,2)0,记 D(1)Φ1, D(2)Φ2,则组合模型的权系数分别为:

1Φ1Φ2,2,由此我们可得最优组合预测模型。

Φ1Φ2Φ1Φ24.2.5最优组合模型的求解

二元回归模型的自变量取x1,x2 分别为序号和交通事故次数,通过计算,它的预测模型为y71.3623.75x11.53x2

GM(1.1)模型中的辨识算式0.11844,843.16。预测结果如表4.12

表4.12两种预测模型的受伤人数预测结果

年份 2006 2007 2008 2009 2010 2011

两种预测模型的受伤人数预测结果 单位:人 实际受伤人GM(1,1)灰色误差(%) 二元回归模

数 预测 型预测 738 738 0 729.28 695 712.72 2.463% 686.33 660 633.11 -4.074% 673.25 563 562.40 0.106% 583.29 504 499.58 -0.877% 511.42 431 443.78 2.965% 416.92

误差(%) -1.220%

-1.247% 2.007% 3.603% 1.389% -3.267%

根据最优组合方法计算:

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

4584.6769.38% 灰色模型的权重系数: 14584.672023.39二

线

2023.39230.62%

4584.672023.39所以组合预测模型为式:

得组合模型的预测结果,与其他两种预测模型结果做比较

年份

三种预测模型的预测结果 单位:人

实际受GM(1,1)误差二元回误差伤人数 灰色预(%) 归模型(%)

测 预测

738 738 0 729.28 -1.220% 695 712.72 2.463% 686.33 -1.247% 660 633.11 -4.074% 673.25 2.007% 563 562.40 0.106% 583.29 3.603% 504 499.58 -0.877% 511.42 1.389% 431 443.78 2.965% 416.92 -3.267%

组合模

型预测 735.32 704.64 645.40 568.80 503.21 435.56

误差(%) -0.363% 1.387% 2.212% 1.030% 0.157% 1.058%

2006 2007 2008 2009 2010 2011

我们采用如下的均方百分比误差来检验组合模型:

其中:MSPE是均方百分比误差,yt是实际值,yt是预测值。 通过计算可得:二元回归模型预测的均方百分比误差为1.14290%,GM(1,1)灰色模型的均方百分比误差为1.13552%,组合预测的均方百分比误差为0. 60509%。

根据组合模型可预测出2012-2016年某高速公路因交通事故的受伤人数。如下表:

2012-2016年某高速公路因交通事故的受伤人数 2012 2013 2014 2015 年份

351 310 276 组合预测值 391

2016

244

^五.模型的评价 优点:

(3) 聚类分析

K-means模型对给定的信息的筛选、加工、延伸和

扩展,从而将评价对象确定在某一范围内,通过了该方法,最终得到了各类评价等级方法,为科学预测交通事故提供了

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

依据。

(4) 聚类分析K-means模型与SPSS统计软件结合简单方便且实

用。

(3)从前面对组合模型的百分比误差分析中可以看出:二元线性回归模型预测的预测精度相对比较低,模型预测精度相对较好,组合预测模型的预测精度大于任一单项预测模型,它避免了单项预测模型的片面性,综合利用各种预测提供的信息,具有更好的预测效果。

(4)建立了二元回归预测与灰色预测组合的预测模型,研究了其在交通事故四项指标中受伤人数预测的应用,并得出了好的结论,为交通事故四项指标的预测提供了一种新的,可靠的方法。

(5)对于灰信息处理技术与多元线性回归模型融合得到有机组合体。实现功能互补,能够使预测数据精度大大提高。

用灰色系统理论的思想、方法对原始数据进行处理,很大程度上改善了统计模型性能。与多元线性规划模型进行组合,深化对系统演化规律的认识。 缺点:

(1)聚类分析K-means模型的算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。

(2)从 K-means 算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,需要与SPSS等统计软件作辅助工作。

(3)组合模型计算量相对于单项预测模型较大。 参考文献

[1]邓聚龙.灰色系统基本方法[M].武汉:华中理工大学出版社,1996. [2]李云贵等.灰色GM(1,1)预测模型的改进[J].系统工程,1992(6):42~43.

[3]何能,鲍一丹.灰色马尔可夫预测模型及其应用[J].系统工程理论及实践,1992(4):22~24.

[4]肖新平等.灰色系统分析理论及其应用[M].大连:大连海事大学出版社,1997.

[5]吴维扬.经济预测及案例分析[M].北京:中国经济出版社,1995.

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

[6]庄楚强,吴亚森.应用数理统计基础(第二版)[M].广州: 华南理工大学出版社, 2003, 12.

[7]马骥, 张卫峰.组合预测方法在磷肥需求预测中的应用[J].统计与决策, 2005, (6):

[8] 周爱民.基于偏最小二乘法的情报组合预测法[J].统计与决策,2004, 176(8):

[9] 江西省统计局编.江西统计年鉴2005[M].北京: 中国统计出版社,2005.

[10] 杨明媚,李华林.主成分分析在证券组合投资中的应用[J].统计与信息论坛, 2004,

[11]姚祖康.道路与交通工程系统分析.北京:人民交通出版社,1996 [12]邓聚龙.灰色控制系统.武汉:华中工学院出版社,1985

[13]Bates,J.M.and Granger,C.W.J.combination of Forecast, Operations Research Quarterly,20(4),1969,451-468

[14]国家统计局编.中国统计年鉴.北京:中国统计出版社,2004 [15]牛东晓,陈志业,谢宏.组合灰色神经网络模型及其季节性负荷预测.华北电力大学学报,2000,27(4):1-6

[16]王应明,傅国伟.基于不同误差准则和范数的组合预测方法研究[J].控制决策, 1994 附录

附表一:原始数据的处理 月份的原始数据:

月份 一月 次数 45 死亡人数 26 受伤人数 经济损失 41 1012394 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 41 40 45 46 49 55 53 51 41 36 41 27 22 35 30 32 36 37 40 26 27 31 51 43 50 57 60 58 61 55 43 36 46 1130126 752580 1263204 977874 1086974 1257101 946124 1052758 900581 738204 767496 年份的原始数据处理:

辖区 辖区一 辖区二 辖区三 辖区四 辖区五 辖区六 辖区七 辖区八 辖区九 辖区十 辖区十一 辖区十二 辖区十三 辖区十四 辖区十五 辖区十六 辖区十七 辖区十八 次数 35 76 17 1 17 8 0 27 44 2 9 66 25 37 13 4 24 137 死亡人数 21 55 13 1 8 10 0 28 30 2 11 5 23 18 11 3 21 110 受伤人数 58 90 21 1 15 8 0 39 54 1 11 18 27 23 15 5 39 176 经济损失 367567 1359658 335565 24200 198717 37314 4315 864460 497020 4817 350834 915000 388515 525480 305117 63334 922376 4721128 小时的原始数据处理:

小时 0-1时 次数 死亡人数 受伤人数 经济损失 702766 25 22 30 31 27 30 713912 24 18 21 605355 31 25 34 742691 34 26 32 845141 32 21 30 939713 26 18 26 598935 27 20 31 718858 23 13 26 418567 21 12 30 558290 26 18 35 445559 17 8 24 321261 17 9 26 347825 1-2时 2-3时 3-4时 4-5时 5-6时 6-7时 7-8时 8-9时 9-10时 10-11时 11-12时 12-13时 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 13-14时 14-15时 15-16时 16-17时 17-18时 18-19时 19-20时 20-21时 21-22时 22-23时 23-24时 14 21 24 22 19 16 16 15 16 19 27 8 12 13 11 11 9 11 9 11 15 23 16 27 30 24 29 16 14 16 12 15 26 254386 356276 442234 318497 271643 266525 240602 289364 458218 379722 649072 每一年的数据处理:

项目 2006 2007 2008 2009 2010 2011 次数 数量 800 665 611 417 382 377 死亡人数 数量 389 380 415 383 333 307 受伤人数 数量 738 695 660 563 504 431 财产损失 数量 15359332 15005740 13023448 8731845 9842361 9349774 附表二:利用SPSS进行数据的处理: 利用SPSS对月份的数据处理: 月份处理数据导出:

QUICK CLUSTER 次数死亡人数受伤人数经济损失 /MISSING=LISTWISE

/CRITERIA=CLUSTER(3) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE)

/PRINT ID(月份) INITIAL ANOVA CLUSTER DISTAN. 快速聚类

附注

创建的输出 注释 输入

活动的数据集 过滤器 权重 拆分文件

数据集0

07-5月-2012 10时03分18秒

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

工作数据文件中的 N 行

缺失值处理

对缺失的定义 使用的案例

用户定义的缺失值将作为缺失处理。 统计量将基于案例进行计算,在这些案例中,所有用到的聚类变量都没有缺失值。

语法

QUICK CLUSTER 次数死亡人数受伤人数经济损失

/MISSING=LISTWISE /CRITERIA=CLUSTER(3) CONVERGE(0)

/METHOD=KMEANS(NOUPDATE) /PRINT ID(月份) INITIAL ANOVA CLUSTER DISTAN.

资源

处理器时间 已用时间 所需的工作空间

00 00:00:00.249 00 00:00:00.858

928 字节 MXITER(10)

12

[数据集0]

初始聚类中心 次数 死亡人数 受伤人数 经济损失 聚类 1 45.00 26.00 41.00 1012394.00 迭代历史记录a 聚类中心内的更改 2 45.00 35.00 50.00 1263204.00 3 36.00 27.00 36.00 738204.00 迭代 1 2 1 2867.600 .000 2 3051.507 .000 3 14556.001 .000 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 250810.000。 聚类成员 案例号 1 2 3 4 5 6 月份 一? 二? 三? 四? 五? 六? 聚类 1 1 3 2 1 1 距离 2867.600 114864.429 180.068 3051.507 37387.572 71712.429 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 7 8 9 10 11 12 七? 八? 九? 十? 十一 十二 2 1 1 1 3 3 最终聚类中心 3051.507 69137.572 37496.430 114680.572 14556.001 14736.001 次数 死亡人数 受伤人数 经济损失 聚类 1 46.57 31.14 52.57 1015261.57 2 50.00 35.50 54.00 1260152.50 3 39.00 26.67 41.67 752760.00 最终聚类中心间的距离 聚类 1 2 3 1 2 244890.929 3 262501.572 507392.500 244890.929 262501.572 507392.500 ANOVA 误差 次数 死亡人数 受伤人数 经济损失 聚类 均方 87.268 48.113 143.268 1.596E11 df 2 2 2 2 均方 df 9 9 9 9 F 4.013 1.916 2.777 36.348 Sig. .057 .203 .115 .000 21.746 25.114 51.598 4.392E9 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 每个聚类中的案例数 聚类 1 2 3 有效 缺失 7.000 2.000 3.000 12.000 .000 利用SPAA对辖区进行数据处理: 辖区分析数据导出:

QUICK CLUSTER 次数死亡人数受伤人数经济损失 /MISSING=LISTWISE

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

/CRITERIA=CLUSTER(3) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE)

/PRINT ID(辖区) INITIAL ANOVA CLUSTER DISTAN. 快速聚类

附注

创建的输出 注释 输入

活动的数据集 过滤器 权重 拆分文件

工作数据文件中的 N 行

缺失值处理

对缺失的定义 使用的案例

用户定义的缺失值将作为缺失处理。 统计量将基于案例进行计算,在这些案例中,所有用到的聚类变量都没有缺失值。

语法

QUICK CLUSTER 次数死亡人数受伤人数经济损失

/MISSING=LISTWISE /CRITERIA=CLUSTER(3) CONVERGE(0)

/METHOD=KMEANS(NOUPDATE) /PRINT ID(辖区) INITIAL ANOVA CLUSTER DISTAN.

资源

处理器时间 已用时间 所需的工作空间

00 00:00:00.312 00 00:00:00.312

928 字节 MXITER(10)

数据集0

18

07-5月-2012 10时17分58秒

[数据集0]

始聚类中心 次数 死亡人数 受伤人数 经济损失 聚类 1 137.00 110.00 176.00 4721128.00 2 76.00 55.00 90.00 1359658.00 3 .00 .00 .00 4315.00 迭代历史记录a 迭代 聚类中心内的更改 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 1 1 2 .000 .000 2 344284.505 .000 3 234361.540 .000 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 1355343.006。 聚类成员 案例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 辖区 辖区1 辖区2 辖区3 辖区4 辖区5 辖区6 辖区7 辖区8 辖区9 辖区10 辖区11 辖区12 辖区13 辖区14 辖区15 辖区16 辖区17 辖区18 聚类 3 2 3 3 3 3 3 2 3 3 3 2 3 3 3 3 2 1 距离 128890.469 344284.505 96888.462 214476.540 39959.539 201362.539 234361.540 150913.502 258343.466 233859.540 112157.462 100373.508 149838.462 286803.462 66440.462 175342.540 92997.504 .000 最终聚类中心 次数 死亡人数 受伤人数 经济损失 聚类 1 137.00 110.00 176.00 4721128.00 2 48.25 27.25 46.50 1015373.50 3 16.31 11.62 18.38 238676.54 最终聚类中心间的距离 聚类 1 2 3 1 2 3705754.504 3 4482451.467 776696.963 3705754.504 4482451.467 776696.963 ANOVA 误差 聚类 均方 df 均方 df F Sig. *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 次数 死亡人数 受伤人数 经济损失 7609.129 4609.309 11976.100 9.653E12 2 2 2 2 315.701 155.588 470.938 4.020E10 15 15 15 15 24.102 29.625 25.430 240.128 .000 .000 .000 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 每个聚类中的案例数 聚类 1 2 3 有效 缺失 1.000 4.000 13.000 18.000 .000 小时的SPSS数据分析; 小时分析数据导出:

QUICK CLUSTER 次数死亡人数受伤人数经济损失 /MISSING=LISTWISE

/CRITERIA=CLUSTER(3) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE)

/PRINT ID(小时) INITIAL ANOVA CLUSTER DISTAN. 快速聚类

附注

创建的输出 注释 输入

活动的数据集 过滤器 权重 拆分文件

工作数据文件中的 N 行

缺失值处理

对缺失的定义 使用的案例

用户定义的缺失值将作为缺失处理。 统计量将基于案例进行计算,在这些案例中,所有用到的聚类变量都没有缺失值。 数据集0

24

07-5月-2012 10时23分14秒

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

语法

QUICK CLUSTER 次数死亡人数受伤人数经济损失

/MISSING=LISTWISE /CRITERIA=CLUSTER(3) CONVERGE(0)

/METHOD=KMEANS(NOUPDATE) /PRINT ID(小时) INITIAL ANOVA CLUSTER DISTAN.

资源

处理器时间 已用时间 所需的工作空间

00 00:00:00.281 00 00:00:00.296

928 字节 MXITER(10)

[数据集0]

初始聚类中心 次数 死亡人数 受伤人数 经济损失 聚类 1 27.00 23.00 26.00 649072.00 2 32.00 21.00 30.00 939713.00 3 16.00 11.00 14.00 240602.00 迭代历史记录a 聚类中心内的更改 迭代 1 2 3 1 29706.400 41869.275 .000 2 47286.000 .000 .000 3 84973.167 18044.762 .000 a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 290641.000。 聚类成员 案例号 1 2 3 4 5 6 7 8 9 10 小时 0-1时 1-2时 2-3时 3-4时 4-5时 5-6时 6-7时 7-8时 8-9时 9-10时 聚类 1 1 1 1 2 2 1 1 3 1 距离 41531.125 52677.126 55879.876 81456.125 47286.000 47286.000 62299.875 57623.125 74947.072 102944.876 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07 11 12 13 14 15 16 17 18 19 20 21 22 23 24 10-11? 11-12? 12-13? 13-14? 14-15? 15-16? 16-17? 17-18? 18-19? 19-20? 20-21? 21-22? 22-23? 23-24? 3 3 3 3 3 3 3 3 3 3 3 3 3 1 101939.073 22358.929 4205.074 89233.929 12656.073 98614.072 25122.929 71976.929 77094.929 103017.929 54255.929 114598.072 36102.072 12162.875 最终聚类中心 次数 死亡人数 受伤人数 经济损失 聚类 1 26.50 20.63 28.50 661234.88 2 33.00 23.50 31.00 892427.00 3 18.93 11.29 22.14 343619.93 最终聚类中心间的距离 聚类 1 2 3 1 2 231192.125 3 317614.947 548807.072 231192.125 317614.947 548807.072 ANOVA 误差 次数 死亡人数 受伤人数 经济损失 聚类 均方 263.348 293.301 142.143 4.289E11 df 2 2 2 2 均方 df 21 21 21 21 F 21.195 22.709 3.819 81.290 Sig. .000 .000 .039 .000 12.425 12.916 37.224 5.276E9 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 每个聚类中的案例数 聚类 1 2 3 有效 缺失 8.000 2.000 14.000 24.000 .000 *欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

附录三:利用MATLAB进行灰色模型的预测: MATLAB的程序编写:

灰色预测[GM(1,1) ]MATLAB程序

% 本程序主要用来计算根据灰色理论建立的模型的预测值。 % 应用的数学模型是 GM(1,1)。 % 原始数据的处理方法是一次累加法。

y=input('请输入数据 ');%输入数据请用如例所示形式:[48.7 57.17 68.76 92.15] n=length(y); yy=ones(n,1); yy(1)=y(1); for i=2:n

yy(i)=yy(i-1)+y(i); end

B=ones(n-1,2); for i=1:(n-1)

B(i,1)=-(yy(i)+yy(i+1))/2; B(i,2)=1;end BT=B';

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

for j=1:n-1 YN(j)=y(j+1); end YN=YN';

A=inv(BT*B)*BT*YN; a=A(1); u=A(2); t=u/a;

t_test=input('请输入需要预测个数:');i=1:t_test+n;

yys(i+1)=(y(1)-t).*exp(-a.*i)+t; yys(1)=y(1); for j=n+t_test:-1:2 ys(j)=yys(j)-yys(j-1); end x=1:n; xs=2:n+t_test; yn=ys(2:n+t_test);

*欧阳光明*创编 2021.03.07

*欧阳光明*创编 2021.03.07

plot(x,y,'^r',xs,yn,'*-b'); det=0; for i=2:n

det=det+abs(yn(i)-y(i)); end

det=det/(n-1);

disp(['百分绝对误差为:',num2str(det),'%']); disp(['预测值为: ',num2str(ys(n+1:n+t_test))]); MATLAB编写界面: MATLAB的求解结果输出:

*欧阳光明*创编 2021.03.07

因篇幅问题不能全部显示,请点此查看更多更全内容

Top