支持向量机在害虫预测预报中的应用

2024-10-26

支持向量机在害虫预测预报中的应用(7篇)

1.支持向量机在害虫预测预报中的应用 篇一

支持向量机在机载设备故障诊断及预测中的应用研究

支持向量机是一种基于统计学习理论的机器学习算法,采用结构风险最小化原则代替经验风险最小化原则,较好地解决了小样本学习问题;采用核函数思想,使非线性空间的问题转换到线性空间,降低了算法的`复杂度;具有良好的泛化能力.针对机载设备故障诊断及预测等工程实际应用中遇到的典型故障样本缺乏、先验知识不足等采用神经网络等其它方法无法解决的问题,提出利用支持向量机应用在机载设备故障诊断及预报中.

作 者:邸亚洲 李宝亭 袁涛 DI Ya-zhou LI Bao-ting YUAN Tao 作者单位:海军航空工程学院青岛分院,山东,青岛,266041刊 名:科技信息(科学・教研)英文刊名:SCIENCE & TECHNOLOGY INFORMATION年,卷(期):“”(2)分类号:V2关键词:支持向量机 机载设备 故障诊断及预测 统计学习理论

2.支持向量机在害虫预测预报中的应用 篇二

随着我国电信改革的进一步深化, 电信市场新竞争格局业已形成。来自国内外的竞争压力, 使中国电信运营商意识到, 必须对业务经营信息进行有效地管理, 增加电信运营商的竞争力。而电信业的收入预测则是为运营商制定相关运营策略的重要参考, 尤其是电信客户规模的不断扩大以及客户群的复杂化, 更加需要电信行业能够及时地处理日益剧增的收入数据, 挖掘出有用的收入预测信息。[1]因此, 迫切需要在电信行业建立一套时间序列的收入预测模型。该模型能够根据一定的历史数据和知识经验, 智能地分析历史收入状况并且预测未来的情况, 以提供给行业经营管理部门作决策参考。

而支持向量机的回归预测模型正可以应用到电信业收入预测中来。支持向量机 (SVM) 是一种机器学习方法, 它的基础是Vapnik创建的统计学习理论[2], 采用了结构风险最小化准则, 在最小化样本点误差的同时, 缩小模型泛化误差的上界, 最小化模型的结构风险, 从而提高了模型的泛化能力。[3]而且它是一个凸二次优化问题, 能保证找到的极值解就是全局最优解。借助SVM的这些特点, 利用支持向量机回归建立的模型克服了神经网络过学习和易陷入局部最小的两大弱点。但是, 其核参数的选择一直是影响其预测精度的瓶颈, 本文正是在此背景下提出了一种基于自适应参数的支持向量回归机的电信收入预测模型, 并与广泛使用的arima模型做了对比。实验表明, 支持向量回归机的预测结果要好于arima模型的预测结果。

一、支持向量机理论及自适应参数法

(一) 支持向量机回归理论

支持向量机回归的基本思想是通过一个非线性映射Ф, 将样本数据 (x i, y i) , xiRn, yiR, i (28) 1, 2, (42) , l映射到高维特征空间F, 并在这个空间进行线性回归。

(二) 自适应参数调节法

对于支持向量机应用于回归预测, 最主要的就是核函数类型及其参数的选择。核函数的选择直接影响到回归预测的精度, 本文提出一种基于期望风险最小的自适应核参数选择方法, 步骤如下:

Step1.初始化核参数的初始值σ、核参数步长λ、经验风险ER (Empirical Risk) 与最小期望风险MER (Minimum of Expected Risk) , 其中经验风险ER初始化为一个很大的数;

Step2.通过训练集进行支持向量回归机的训练并得出经验风险;

Step3.If经验风险ER小于原经验风险ER并且大于最小期望风险MER, Then保留核参数σ并更新期望风险ER;

Step4.新的核参数值=核参数值+核参数步长;

Step5.返回Step2测试新的核参数;

Step6.最后得出的核参数σ即为最优核参数, 即可用于回归预测。

二、电信业收入预测

电信业收入预测是一个很复杂的问题, 其收入主要包括固定电话、互联网、网间结算、PHS和公话等各项收入, 因此, 本文以某市联通公司2009年1月至2010年5月固定电话、互联网、网间结算、PHS和公话作为训练集, 通过自适应参数调节法得到的最优核参数建立支持向量回归机模型, 分别预测2010年6月的值, 通过与SPSS中arima专家建模系统得出的预测值比较, 得到了较好的效果。

下表依次是固定电话、互联网、网间结算、PHS和公话各项收入的真实值、SVM预测值与arima预测值的对比, 可以看出, SVM模型的预测值明显优于arima模型的预测值。

三、结论与展望

本文结合电信业收入预测的实际问题, 提出了基于SVM的预测模型, 并针对其核参数的选择问题提出了一种自适应参数调节方法。通过与arima预测模型的对比实验表明, 新方法是完全可行的并在小样本情况下具有较高的泛化能力。但是新方法中期望风险值的确定则是根据实际情况由实验确定的, 其理论意义则是下一步探讨的问题。

摘要:随着我国电信改革的进一步深化, 电信市场新竞争格局业已形成, 电信业的收入预测则是为运营商制定相关运营策略的重要参考。因此, 迫切需要在电信行业建立一套时间序列的收入预测模型。本文正是在此背景下提出了一种基于自适应参数的支持向量回归机的电信收入预测模型, 通过最小期望风险选择合适的核参数, 并与广泛使用的arima模型做了对比。实验结果表明, 支持向量回归机的预测结果要好于arima模型的预测结果。

关键词:支持向量机,电信收入预测,自适应参数,arima

参考文献

[1]李晓武.数据挖掘技术在昆明电信业务收入预测中的研究应用.昆明理工大学硕士论文, 2007.

[2]VapNik V.N.Statistical learning theory.J.Wiley, NewYork, 1998.

3.支持向量机在害虫预测预报中的应用 篇三

关键词:病斑特征;烟草病害;支持向量机;CIE L*a*b*模型;实数编码遗传算法

中图分类号: S126;TP391.41文献标志码: A文章编号:1002-1302(2015)09-0435-04

随着计算机技术的发展和农业信息化的迫切需求,国内外学者尝试利用计算机图像处理技术和模式识别技术对作物病害进行自动定量的识别,已在水稻、小麦、黄瓜、蔬菜[1-5]等的病害识别上取得了一定的成绩。常用的模式识别工具有贝叶斯决策、神经网络、模糊集法等。常用模式识别工具是以无限多样本训练为前提的,但在实际诊断中对于某一类病害,通常不具有大量的病害样本。支持向量机(SVM)[6]是一种新的模式识别方法,它在处理非线性、小样本等问题上具有特定的优势,在生物信息、医学等领域已得到了成功应用。已有学者开始利用支持向量机对葡萄、黄瓜、小麦等的病害进行识别[2-3],取得了一定成绩。因作物种类繁多,同一类作物也会有多种病害发生,且病害特征呈现多样化、复杂化,所以至今还没有一种通用的病害识别方法,需针对不同的作物病害分别进行研究。在烟草生长期内有多种病害发生,每年造成的损失很大[7],病害防治是确保烟草产量和质量的关键技术之一。目前,烟草病害的识别主要通过人为判断,或通过书本、互联网、数据库等提供的烟草病害图片比对诊断,这对于非专业人员,往往会引起人为的误判,从而难以对症下药,造成烟叶质量下降。

本研究提出依据病害图像的病斑特征,构建实数编码遗传算法获取有效特征和支持向量机识别病害的模型以诊断烟草病害。以赤星病、野火病等4种常见又容易混淆的烟草病害图像诊断为例,通过分割彩色病斑、提取病斑特征,将提取的特征输入实数编码遗传算法优化特征和支持向量机识别病害的模型,特征通过模型,获得对应的权重,将前n个权重较高的特征向量值xi乘以对应的权重wi,即xi=wi·xi作为支持向量机的输入向量,支持向量机的分类精度作为遗传算法的适应度对个体进行评估,以在去除冗余特征的同时提高支持向量机的识别精度。试验表明,实数编码遗传算法选择病害特征比采用二进制编码及双编码具有更好的识别率和优势,构建的模型能很好地识别烟草病害,可为病害的科学防治和危害程度评价提供依据。

1材料和方法

1.1病害图像采集与硬件参数

本研究中所采集的图像来源于云南德宏潞西,在田间自然光照下,用Nikon D80数码相机(焦距18~20 mm,最大光圈f/3.5~f/5.6),采集4种烟草病害(野火病、炭疽病、赤星病、蛙眼病)500幅,以“jpg”格式存储在电脑中。

利用Intel(R) Pentium(R)CPU G3220@3.0GHZ处理器,内存4 G,硬盘500 G,在Windows 2007系统环境下用Matlab2009a软件编程实现图像增强、病斑分割、特征提取、特征筛选、病害识别等操作。

1.2研究方法

1.2.1图像预处理和病斑分割(1)图像预处理。为减少计算量和外界带来的干扰,在不损害病斑完整性的前提下,根据病斑所在的位置将图像由原来的3 872×2 592像素统一裁剪为800×600像素。由于图像是在田间自然条件下采集,难免会受采集设备、环境等因素影响,往往使采集到的图像含有噪声,若直接进行图像分割和特征提取,会给识别造成误差。为此本研究首先利用3×3矩形窗口对原图像进行中值滤波[8],以削弱或去除噪声,使病斑轮廓与细节更加清晰,利于后期病斑的分割和处理。

(2)颜色空间选择。在众多颜色模型中,因CIE L*a*b*模型符合人的视觉特征[9],与光线及设备无关,并且处理速度与RGB模型同样快,比CMYK模型快,还是一种均匀的彩色空间,适合于彩色图像的编辑和分析,所以本研究采用了CIE L*a*b*模型。从RGB空间到L*a*b*空间的转化,采用D65白点,其中Xn=0.950 456,Yn=1,Zn=1.088 754。

(3)彩色病斑分割。烟草病害图像由病斑区域和正常区域组成,而病斑区域与正常区域之间有明显的突变,即边缘,所以本研究的病斑分割,采用基于支持向量机与多特征选择的彩色病斑边缘检测方法分割[10]。通过在CIE L*a*b*颜色空间,计算图像亮度和色度通道的方差、均值差、最大梯度,以及位置像素对比度及均值色差作为特征向量,实现支持向量机对病斑边缘的识别,对识别出的病斑边缘,统计近似圆形且半径大于一定值的二值化区域,将区域内的所有像素赋值为“1”,再与原图进行“与”运算,从而获得病害图像的彩色病斑。这样分割既可以减少病害图像处理的信息量,又能描述病斑的形态特征,是进一步识别病害的基础。图1是采用上述方法对赤星病、蛙眼病和野火病图像分割的效果图。

1.2.2病斑区域特征提取(1)颜色特征提取。颜色是区分各种不同病害的重要特征,而颜色模型的选择会影响到病害识别效果。由于病害图像是在自然光照下拍的,为了消除亮度影响,采用颜色矩来描述颜色特征[11],因颜色信息主要集中在低阶,所以本研究在CIE L*a*b*颜色空间,提取L、a、b 3个分量的一阶矩σ和二阶矩σ2,共6个特征向量,其公式如下:

病斑数:E。主要用来计算病害图片上某种病害的病斑个数。

病斑面积与病斑数比值:R=SE。该参数是单个病斑的面积度量,主要用于区分大病斑和小病斑。

1.3基于实数编码遗传算法选取病斑特征与支持向量机识别病害的模型设计

(1)模型介绍。支持向量机(support vector machine,简称SVM)[13-15]是Vapnik等于1995年根据统计学理论中结构风险最小化原则提出的一种模式识别方法。它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。由于径向基(RBF)核函数的计算复杂度不随参数的变化而变化,且在全部参数空间满足Mercer条件,是SVM方法中最常用的核函数,因此本研究选择径向基核函数,其数学表达式为:K(x,y)=exp(-γ│x-y│2),其中x为输入特征值,y为特征值x对应的结果,γ为径向基核函数参数(γ>0)。

遗传算法(GA)是美国Holland教授于1975年提出的,是一种全局优化的随机搜索算法,特别适用于处理传统搜索方法难以解决的复杂和非线性问题[16-17]。遗传算法的思想源于生物遗传学和适者生存的自然规律,从一个随机产生的解群体出发,借助选择、交叉、变异等操作,依据适应度函数对个体的评价,使每一代中相对好的解替代前一代相对差的解,最终逼近全局最优解。将GA和SVM结合的目标是在去除冗余特征的同时,提高病害的识别精度。

(2)操作步骤。①编码。遗传特征选择的目标是去除冗余特征,选择最优特征子集,使得分类精度最大化。常用的编码方式是二进制编码,1表示选中,0表示未选中。本研究为了既得到特征子集,又能得到特征对应的权重,采用了实数编码方式。②初始群体。设特征个数为m,则实数编码的初始群体M(0)={Ci},(i=1,2,…,N),其中 Ci=wik,k=1,2,…,m。M(0)中的第1个染色体的每个基因都等于“1”,表示所有特征的权重都相同。其余(N-1)个初始染色体基因随机产生[0,1]之间的实数,表示随机生成(N-1)个特征加权子集。③选择适应度函数。适应度函数是针对需要解决的具体问题而设定的,目的是提高烟草病害的分类精度,所以采用支持向量机的分类精度对个体适应度进行评估。适应度函数 F=accuracy,其中accuracy为SVM分类器的分类精度。④遗传操作。a. 选择操作。将染色体按适应值从大到小顺序排列,适应值最大的染色体直接进入下一代,剩余染色体根据选择概率Ps按轮盘赌选择机制进行选择。b. 交叉操作。实数编码GA中的交叉操作常采用最大-最小-算术交叉方法和双点交叉。双点交叉操作的具体过程是:首先,将所有的父代个体进行两两组合,得到C2N个个体对;然后,就每对组合随机产生1个[0,1]之间的随机数 P,如果 P>Pc(Pc为交叉概率),则确定该组合将进行交叉操作,否则确定该组合将不进行交叉操作;最后,产生2个随机整数 a、d(0

wk=wk+μ(1-(1-tM)β),γ=0

wk+μ(1-(1-tM)β),γ=1。(7)

式中:t为迭代次数,是∈[0,1]间的随机数;M 是最大遗传代数;γ为1或0的随机数;β是突变参数。这种突变方法与遗传代数相关,使得在进化初期,突变的范围相对较大,而随着进化的推进,突变范围逐渐减小,对进化起着微调作用。

⑤终止条件。终止条件采用最大进化代数或相邻进化代数最优个体适应值相对误差小于 0.001 相结合。分析新个体是否满足终止条件,若不满足返回第③步;若满足则终止。

⑥染色体解码。迭代结束后,将具有最高适应度的个体作为优选结果,选出n个权重较大的项对应的特征为选中的特征,将这些特征挑选出来得到的特征集合就是选择的最优特征子集。

2结果与分析

2.1试验参数选定

以烟草生长中常见也最容易混淆的野火病、炭疽病、赤星病、蛙眼病4种主要病害为例。选择效果较好的子图300幅,其中以每种病害45幅(共180幅)做分类训练,以每种病害30幅(共120幅)做测试。根据上述方法,提取了颜色、纹理、形态共23个特征。分类器选用SVM的一对一投票策略实现烟草多种病害识别。共训练k(k-1)/2(k为类别数,取4)个二值分类器,在分类时采用了打分策略,分别用训练过程得到的k(k-1)/2个分类器进行测试,每个结果为1分,累计各类别得分,选择得分最高的为测试类别。试验参数为:(1)采用SVM中径向基核函数K(x,y)=exp(-γ│x-y│2)作为核函数,经多次试验其参数C=50、γ=0.125效果较好,输出采用十进制编码输出:0代表正常,1代表野火病,2代表炭疽病,3代表赤星病,4代表蛙眼病,共5个输出。(2)遗传算法的染色体长度m=23,群体大小P=20,交叉概率P01=0.9,变异概率P02=0.05,交叉因子γ=0.6,突变参数β=0.6,最大迭代次数G=400。(3)在Matlab2009a环境编程实现遗传算法(GA)和SVM算法,其中编写的SVM函数有:①MultiSVMtruct=MultiSVMTtrain(TrainData,nSamPerclass,nclass,C,γ),其中TrainData为训练数据,nSamPerclass记录每类的样本数,nclass为类别数;②Class=MultiSVMClassify(TestData,MultiSVMtruct),其中TestData为测试样本集,MultiSVMtruct 为多类SVM的训练结果。

从提取的23个烟草病斑特征中选取对病害识别贡献高的n个特征子集。遗传操作结束后,用n个对应特征向量值乘以特征权重Wi∈[0,1],即Xi=Wi·Xi作为支持向量机的输入向量,其特征数与对应的分类精度如图2 所示。从图2看出,当特征数为15时,分类精度最高,其特征项分别为:颜色A={σL,σa,σb,σa2,σb2},纹理B={ mean f1,sqrt f1,sqrt f2,mean f3,mean f4,mean f5},形态C={S,Ct,St,E,R},对应权重分别为:0.325、0.531、0.774、0.452、0.631、0.168、0.280、0.564、0.198、0.202、0.147、0.471、0.612、0.432、0.271、0.741。

2.2识别结果

表1是几种算法的对照。从表1可得出:本研究算法与没有采用遗传特征选择相比,在特征向量只有原来的92%的情况下,精度却提高了14.5百分点;与采用二进制编码遗传算法优化特征相比,其识别精度高出4百分点;与采用双编码遗传算法[18](同时采用实数编码和二进制编码)优化特征相比,识别精度高出0.70百分点;本研究算法获取的特征数是16,二进制编码遗传算法的为18,双编码遗传算法的为17。表1几种算法的病害识别精度对照

遗传算法方式支持向量数正确识别率(%)野火病赤星病蛙眼病炭疽病平均没有采用遗传选择778689828084.25二进制编码遗传选择679397949594.75双编码遗传选择7497100979898.05实数编码遗传选择7198100989998.75

由上述得出本研究算法在获得有效特征的同时获取了特征的权重,并降低了时间及空间复杂度。

3讨论

以烟草4种常见病害(野火病、赤星病、蛙眼病、炭疽病)病斑图像为研究对象,应用实数编码遗传算法可以去除冗余特征,还能获得对识别病害贡献多少的权重,并用支持向量机对4种病害进行识别,结果表明利用基于支持向量机与多特征选择的彩色病斑边缘检测方法能有效提取出4种病害的病斑。

在病害特征优化和识别精度方面,用同样的样本和模型训练方法,分别用提取的全部特征直接用支持向量机识别,其平均识别精度为84.25%;用二进制遗传算法优化特征和支持向量机识别病害,优化后特征数减为18个,平均识别精度为94.75%;用双编码遗传算法优化特征和支持向量机识别,优化后特征数减为17个,平均识别精度为98.05%;用本研究的方法,实数编码遗传算法优化特征和支持向量机识别病害,优化后的特征数减为15个,平均识别精度为98.75%,从而得出本研究的方法除了能提高识别精度外,还能降低时间和空间复杂度。

本研究的方法可以实现烟草野火病、赤星病、蛙眼病、炭疽病的计算机自动识别,并且可以应用到其他农作物的病害识别中。但是本研究还仅针对烟草4种常见典型病害的叶部危害特征进行研究,这对于实际应用还不够,因为在整个烟草生长期,在不同阶段根、茎、叶等都会染病,且各个部位的病害表征不尽相同;农业与化工污染也可能对烟株造成损害形成类似病斑的斑点,所以还需逐步增加病害和受害种类的研究。此外,支持向量机和遗传算法作为一种有监督的模式识别方法,在特征向量和参数的选择研究上仍然是下一步需加强的工作。参考文献:

[1]管泽鑫,唐健,杨保军,等. 基于图像的水稻病害识别方法研究[J]. 中国水稻科学,2010,24(5):497-502.

[2]李冠林,马占鸿,王海光. 基于支持向量机的小麦条锈病和叶锈病图像识别[J]. 中国农业大学学报,2012,17(2):72-79.

[3]田有文,李天来,李成华,等. 基于支持向量机的葡萄病害图像识别方法[J]. 农业工程学报,2007,23(6):175-180.

[4]蔡清,何东健. 基于图像分析的蔬菜食叶害虫识别技术[J]. 计算机应用,2010,30(7):1870-1872.

[5]李冉,赵天忠,张亚非,等. 基于遗传特征选择和支持向量机的图像标注[J]. 计算机工程与应用,2009,45(6):180-183.

[6]Rough Z. Sets and intelligent data analysis[J]. Information Sciences,2002,147(1/4):1-12.

[7]陈永德,覃春华. 烟草常见病害的田间诊断[J]. 湖南农业科学,2010(18):20-22.

[8]张铮,王艳平,薛桂香. 数字图像处理与机器视觉——Visual C++与Matlab实现[M]. 北京:人民邮电出版社,2010:156-162.

[9]Koschan A M. 彩色数字图像处理[M]. 北京:清华大学出版社,2010:124-162.

[10]濮永仙. 基于支持向量机与多特征选择的农作物彩色病斑边缘检测[J]. 计算机系统应用,2014(9):118-123.

[11]Lindgreen R,Herschberg I. On the validity of the Bell-LaPadula model[J]. Computer & Security,1994,13:317-338.

[12]Haralick R M,Shanmugam K,Dinstein I. Textual features for image classification[J]. IEEE Trans Syst Man Cybernet,1973,3(6):610-621.

[13]Mazzoni D,Garay M J,Davies R,et al. An operational MISR pixel classifier using support vector machines[J]. Remote Sensing of Environment,2007,107(1/2):149-158.

[14]Burges C C. A totorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery,1998,2(2):121-169.

[15]Steve R G. Support vector machines for classification and regression[R]. Southampton:University of Southampton,1998:1-28.

[16]Oh I S,Lee J S,Moon B R. Hybrid genetic algorithms for featureselection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(11):1424-1437.

[17]Hamdani T M,Alimi A M,Karray F. Distributed genetic algorithm with Bi-coded chromosomes and a new evaluation function for features selection[C]//Evolutionary Computation,2006. CEC 2006. IEEE Congress on,2006:581-588.

4.支持向量机在害虫预测预报中的应用 篇四

目的:基于支持向量机建立一个自动化识别新肽链四级结构的方法,提高现有方法的识别精度.方法:改进4种已有的蛋白质一级序列特征值提取方法,采用线性和非线性组合预测方法建立一个有效的`组合预测模型.结果:以同源二聚体及非同源二聚体为例.对4种特征值提取方法进行改进后其分类精度均提升了2~3%;进一步实施线性与非线性组合预测后,其分类精度再次提高了2~3%,使独立测试集的分类精度达到了90%以上.结论:4种特征值提取方法均较好地反应出蛋白质一级序列包含四级结构信息,组合预测方法能有效地集多种特征值提取方法优势于一体.

作 者:谭显胜 袁哲明 周铁军 熊洁仪 王春娟 TAN Xian-shen YUAN Zhe-ming ZHOU Tie-jun XIO NG Jie-yi WANG Chun-juan 作者单位:谭显胜,TAN Xian-shen(湖南农业大学生物安全科学技术学院,湖南,长沙,410128;湖南农业大学理学院,湖南,长沙,410128)

袁哲明,熊洁仪,王春娟,YUAN Zhe-ming,XIO NG Jie-yi,WANG Chun-juan(湖南农业大学生物安全科学技术学院,湖南,长沙,410128)

周铁军,ZHOU Tie-jun(湖南农业大学理学院,湖南,长沙,410128)

5.支持向量机在害虫预测预报中的应用 篇五

波动率在资产定价、投资组合与风险管理中起着重要作用[1,2,3,4]。自从Engle[5]与Bollerslev[6]关于收益序列异方差特性的开创性工作以来, 自回归异方差类模型在波动率预测中的主导地位逐渐得到了广泛认可[7,8]。为进一步提高GARCH模型的预测性能, 神经网络 (neural networks) 被引入到该领域中来, 因为神经网络能灵活反映过去收益平方与未来波动率之间的非线性关系而被引入该领域。Donaldson与Kamstra提出了NN-GARCH模型来预测收益波动率[9]。Meissner与Kawano则应用NN-GARCH模型分析期权的波动率微笑[10]。尽管神经网络能有效预测波动率序列, 但是它由于自身的缺陷不能解决过拟合问题而导致学习泛化性能降低[11,12]。而Vapnik基于结构风险最小化原则提出的支持向量机 (SVMs) 作为一种新型神经网络具有全局最优解, 从而较好地解决了这一问题[13,14]。随着非敏感损失函数的引入, SVMs从开始的分类问题拓展到回归领域, 称为支持向量回归机 (SVR) 。因此, Perez-Cruz提出了GARCH-SVM模型。他的研究表明SVR预测波动率不仅可行而且有效[15]。

所有现存的核函数都将低维空间的输入数据映射到高维特征空间再加以解决。正是通过这一途径才实现了非线性问题的线性化, 因此支持向量机的预测性能主要取决于核函数的构造或选取[16]。由于小波函数能以不同的时间粒度刻画任一位置的收益序列, 它应该也能较好地捕捉收益序列的波动特性[17,18,19,20]。因此, 将SVMs与小波理论结合起来, 构造出用以预测波动率序列的小波核函数同样是一个值得期待与研究的问题。本文正是基于这一想法将一个新构造的小波支持向量机引入到波动率预测中来, 并将高斯核作为基准, 以检验在股指波动率预测方面构造小波核的合理性与有效性。利用真实股指收益数据, 根据所选用的性能评价尺度, 实验表明小波核比高斯核在股指波动率预测方面具有更好的效果。

2 流形小波核的构造与证明

使x= (x1, …, xN) ∈RN, Φ为尺度函数且ΨL2 (R) 空间的正交小波基;令θ0=Φθ1=Ψ;对于任意整数0≤λ<2N, 用其二进制形式表示λ=λ1…λN, 定义N维函数:

Ψλ (x) =θλ1 (x1) θλΝ (xΝ) θ0=φ;θ1=Ψ

显然

Ψ0 (x) =φ (x1) φ (xΝ)

那么, 当λ≠0通过平移与伸缩2N-1个小波函数所得的函数系

{Ψj, kλ (x) =2-Ν*j/2Ψλ (x1-2jk2j, , xΝ-2jk2j) }1λ<2Ν, j, kΖ (1)

L2 (RN) 空间的正交小波基[20]。

定理1 令Ψλ (x) 为一母小波, 令jk分别表示收缩与平移。如果s, tRN, 那么点积小波核

k (s, t) =1λ<2Ν, j, kΖΨj, kλ (s) Ψj, kλ (t) (2)

为认可的支持向量小波核。

证明 先定义L2 (RN) 空间中的另一个正交小波基:

{Ψj, kλ (x) =2-Ν*j/2Ψλ (x1-2jk2j, , xΝ-2jk2j) }1λ<2Ν, j, kΖ

根据对偶框架理论, ∀1≤λ′<2N, j′, k′∈Z,

Ψj, kλ=1λ<2Ν, j, kΖΨj, kλ, Ψj, kλ¯L2 (RΝ) Ψj, kλ (3)

因为{Ψλj, k}1≤λ<2N, j, kZ是正交基, 所以Ψj, kλ¯=Ψj, kλ.

于是, 根据再生核理论有

k (s, t) =1λ<2Ν, j, kΖΨj, kλ (s) 1λ<2Ν, j, kΖΨj, kλ (t) Ψj, kλ, Ψj, kλL2 (RΝ)

x1, …, xlRN, a1, …, alR, 有

因此, 点积核满足Mercer条件因而是认可的支持向量核。

3 实验结果及分析

本实验真实数据集由下列五支股票指数构成:DAXINDX, FRCAC40, FTSE100, JAPDOWA, SPCOMP。股指收盘价pt通过下式转换成收益:

yt=100ln (pt/pt-1)

所有股指数据均取自1992年1月1日至1997年12月31日这一区间。因而每一股指序列包含1560个样本点。然后对于每一支股票时间序列, 取长度为1040个样本点的时间窗以步长为130个样本点在时间轴上从左至右依次滑动[21]。而每个时间窗下的完整时间序列从左至右又划分成两个长度均为520个样本点的训练集与预测集。通过交叉验证方法选择标准支持向量机参数Cε和高斯核函数参数γ.小波支持向量机采用同样的Cε参数值, 而小波核函数的伸缩参数也通过交叉验证获得。而所有预测结果中以第四次滑动 (1992年7月至1996年7月) 最佳。

预测性能采用下述统计指标: 正则均方误差 (NMSE) 、正则均值绝对误差 (NMAE) 与命中率 (HR) 。各统计指标计算公式如下所示:

其中, N表示样本点个数, σ^2表示预测的条件方差, y表示预测收益, NMSE使基于支持向量机预测波动率的均方误差与原始模型σ^t2=yt-12对比。与NMSE相比, NMAE更侧重于异常情况的分析。它们都度量着真实值与预测值之间的偏差。其度量值越小表示预测值越接近真实值。HR度量模型预测波动率改变的真实方向。与NMSE和NMAE相反, HR度量值越大表示预测得越准确。

训练集预测结果见表1, 从表中可以看出, 所有股指收益中最小的NMSE与NMAE值均出现在小波核中, 对于HR, 除了JAPDOWA外, 在所有其它真实股指 (DAXINDX、FRCAC40、FTSE100、SPCOMP) 中小波核的指标值均优于高斯核。基于训练集NMSE成对t检验[22]用来确定高斯核与小波核预测性能是否存在显著差异。t值表明对于单边检验在0.1的显著水平下小波核优于高斯核。

预测集预测结果见表2。因为可以忽略过拟合现象, 所以尽管预测集预测结果比训练集预测结果要差, 但却更为可信。从表2中可以看出, 整体上除了FTSE100的NMSE, DAXINDX的NMAE与JAPDOWA的HR以外, 小的NMSE与NMAE值都出现在小波核中。同时, 大的HR值也出现在小波核中。基于预测集NMSE成对t检验依然用来确定高斯核与小波核预测性能是否存在显著差异。预测集结果同样显示t值对于单边检验在0.1的显著水平下小波核优于高斯核。由于股指SPCOMP的NMSE与NMAE值在所有股指中具有较好的代表性, 所以图1和图2分别给出了高斯核与小波核的平方观测值yt2与预测值σ^t2的曲线对比图。在该股的与预测中, 参数Cε分别设置为3.3464和0.0097。高斯核参数γ取为0.43907。小波核的种类选取4阶消失矩的Daubechies小波, 同时伸缩参数设置为1。勿庸置疑, 图1与图2表明与原始模型相比, 高斯核与小波核均能较充分地捕获收益序列的波动特征, 但小波核显然更胜一筹。这一结论从表2中得到了证实。

4 结论

本文基于小波分析与核函数理论提出了一种全新的小波核函数, 证明了它是一个认可的支持向量核并用于GARCH预测。为了避免研究结果的片面性, 本文以国外主要证券市场作为研究对象, 选择DAXINDX、FRCAC40、FTSE100、JAPDOWA、SPCOMP共五支股指数据。在数据预处理后将整个数据集划分为训练集与预测集并在时间轴上依次滑动。通过交叉验证方法进行参数搜索提高了支持向量机回归预测的泛化性能。预测性能则通过定义的正则均方误差 (NMSE) , 正则均方绝对误差 (NMAE) 与命中率 (HR) 等统计指标予以衡量。实验结果显示小波核绝大多数的NMSE与NMAE值比高斯核要小, 而HR值则比高斯核要大, 其波动预测曲线图形也更为逼近真实曲线, 所以可以认为小波核的波动预测性能的确要优于标准支持向量机中的高斯核函数。

摘要:运用支持向量机进行广义自回归条件异方差 (GARCH) 模型预测所面临的一个主要问题就是普通核函数难以准确捕捉股指波动率的聚集特征。然而小波函数却具备以任意时间粒度在任意位置刻画任一时间序列的能力。因此, 本文基于小波分析与核函数理论, 构造了一个满足mercer条件的多尺度小波核来解决这一问题。通过真实股指数据分析, 小波支持向量机在波动率预测中的有效性获得了证实。

6.支持向量机在害虫预测预报中的应用 篇六

支持向量机是Vapnik等人提出的, 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势, 已应用于手写体识别、三维目标识别、人脸识别、文本图像分类等实际问题中, 性能优于已有的学习方法, 表现出良好的学习能力。它是从线性可分情况下的线性分类面发展而来的, 接着利用核函数很好的解决了非线性可分情况。

2 支持向量机的几个发展

(1) 模糊支持向量机, 引入样本对类别的隶属度函数, 这样每个样本对于类别的影响是不同的, 这种理论的应用提高了SVM的抗噪声的能力, 尤其适合在未能完全揭示输入样本特性的情况下。

(2) 最小二乘支持向量机。这种方法是在1999年提出, 经过这几年的发展, 已经应用要很多相关的领域。研究的问题已经推广到:对于大规模数据集的处理;处理数据的鲁棒性;参数调节和选择问题;训练和仿真。

(3) 加权支持向量机 (有偏样本的加权, 有偏风险加权) 。

(4) 主动学习的支持向量机。主动学习在学习过程中可以根据学习进程, 选择最有利于分类器性能的样本来进一步训练分类器, 特能有效地减少评价样本的数量。

(5) 粗糙集与支持向量机的结合。首先利用粗糙集理论对数据的属性进行约简, 能在某种程度上减少支持向量机求解计算量。

(6) 基于决策树的支持向量机。对于多类问题, 采用二岔树将药分类的样本集构造出一系列的两类问题, 每个两类构造一个SVM。

(7) 分级聚类的支持向量机。基于分级聚类和决策树思想构建多类svm, 使用分级聚类的方法, 可以先把n-1个距离较近的类别结合起来, 暂时看作一类, 把剩下的一类作为单独的一类, 用svm分类, 分类后的下一步不再考虑这单独的一类, 而只研究所合并的n-1类, 再依次下去。

(8) 算法上的提高。Vapnik在1995年提出了一种称为“chunking”的块算法, 即如果删除矩阵中对应Lagrange乘数为0的行和列, 将不会影响最终结果。Osuna提出了一种分解算法, 应用于人脸识别领域。Joachims在1998年将Osuna提出的分解策略推广到解决大型SVM学习的算法。Platt于1998年提出了序贯最小优化每次的工作集中只有2个样本。

(9) 核函数的构造和参数的选择理论研究。基于各个不同的应用领域, 可以构造不同的核函数, 能够或多或少的引入领域知识。现在核函数广泛应用的类型有:多项式逼近、贝叶斯分类器、径向机函数、多层感知器。参数的选择现在利用交叉验证的方法来确认。

(10) 支持向量机从两类问题向多类问题的推广。Weston在1998年提出的多类算法为代表。在经典svm理论的基础上, 直接在目标函数上进行改进, 重新构造多值分类模型, 建立k分类支持向量机。通过sv方法对新模型的目标函数进行优化, 实现多值分类。

一对多 (one-against-rest) ——Vapnik提出的, k类——k个分类器, 第m个分类器将第m类与其余的类分开, 也就是说将第m类重新标号为1, 其他类标号为-1。完成这个过程需要计算k个二次规划, 根据标号将每个样本分开, 最后输出的是两类分类器输出为最大的那一类。不足:容易产生属于多类别的点 (多个1) 和没有被分类的点 (标号均为-1) ——不对, 训练样本数据大, 训练困难, 推广误差无界。

层 (数分类方法) , 是对一对一方法的改进, 将k个分类合并为两个大类, 每个大类里面再分成两个子类, 如此下去, 直到最基本的k个分类, 这样形成不同的层次, 每个层次都用svm来进行分类——1对r-1法, 构建k-1个分类器, 不存在拒绝分类区。

3 主要研究热点

从上面的发展中, 我们可以总结出, 目前支持向量机有着几方面的研究热点:核函数的构造和参数的选择;支持向量机从两类问题向多类问题的推广;更多的应用领域的推广;与目前其它机器学习方法的融合;与数据预处理 (样本的重要度、属性的重要度、特征选择等) 方法的结合。

摘要:支持向量机 (Support Vector Machine, SVM) 是数据挖掘和机器学习中的一个很有效的工具。结合支持向量机在数据挖掘和机器学习中的应用, 介绍了支持向量机的基本原理, 发展方向及其研究热点。

关键词:支持向量机,数据挖掘,机器学习

参考文献

[1]张学工.统计学习理论的本质[M].北京:清华大学出版社, 2000.

7.支持向量机在害虫预测预报中的应用 篇七

变压器的故障评估就是根据变压器故障的征兆, 确定故障的性质或类别。常用的传统方法有绝缘试验、局部放电试验、绝缘油电气试验及其它预防性试验等。其中, 油中溶解气体分析法是检测变压器内部故障的重要方法。

但是, 传统方法大多仍局限于阀值诊断的范畴, 一般只给出一个判定边界的描述, 难以确切反映故障与表现特征之间的客观规律, 并且很难在溶解气体含量较小的情况下对变压器状态进行分析。

因此, 在传统方法的基础上, 将人工智能的理论和方法应用于故障评估, 发展智能化的评估方法, 是变压器故障评估的一条全新途径。目前研究的热点和重点是:模糊逻辑方法、专家系统、人工神经网络、支持向量机等。

但是, 不同的预测方法各自有其优缺点。家系统方法和模糊推理方法不适合小样本的情况;人工神经网络结构过于复杂, 需要数据样本显得太多, 学习泛化能力不够, 预测精度不高。而支持向量机通过结构风险最小化原理来提高泛化能力, 较好地解决了小样本、非线性、高维数、局部极小点等实际问题, 已在模式识别、信号处理、函数逼近等领域得到了应用[3]。

因此, 本文针对变压器油中溶解气体含量, 在油色谱分析技术的基础上, 应用最小二乘算法的支持向量机 (LS-SVM) 来对电力变压器的状态进行评估。

1 电力变压器状态

变压器的状态是指在实现设备功能的同时, 承受预计的外部环境的影响, 完成设备的预期寿命[2]。一般来说, 电力变压器所处的状态可分为两种, 即正常状态和异常状态。变压器在运行过程中必然会遭受各种应力, 这些应力产生的次数、大小和时刻, 可能是随机的, 而一旦这些应力超过变压器的耐受强度, 就会发生事故, 因此, 如果能估计变压器的状态和运行的应力, 就可以预计事故的发生, 及早采取预防事故发生的措施[3]。

油中溶解气体色谱分析法, 是目前检测变压器内部故障的常用方法, 有助于管理人员发现早期的潜伏性故障[4]。因此, 本文从变压器油中溶解气体的含量来对变压器的运行状态予以说明。

大型电力变压器几乎都是用油来绝缘和散热。在正常运行情况下, 变压器油与油中的固体有机绝缘材料在运行电压下随时间的增加, 因放电和热的作用会逐渐老化和分解, 会缓慢地产生少量的各种低分子烃类及CO、CO2气体, 此时油中溶解气体的组成主要是氧气和氮气[5]。

因此, 根据油中气体的组分和含量, 可以在一定程度上反映变压器绝缘老化和故障的程度, 可以判断故障的性质及严重程度, 从而评估变压器所处的工作状态。

2 支持向量机

2.1 机器学习

机器学习主要研究如何从一些观测数据出发得到目前尚不能通过原理分析得到的规律, 利用这些规律去分析客观对象, 对未来数据或无法预测的数据进行预测。

与传统统计学的方向不同, Vladimir N.Vapnik等人早在20世纪60年代就开始研究有限样本下的机器学习问题, 随着理论研究的逐步成熟, 在20世纪90年代中期, 他们提出了一个较完善的基于有限样本的理论体系——统计学习理论 (Statistical Learing Theory, 简称SLT) 。统计学习理论的一个核心概念就是VC维概念, 它是描述函数集或学习机器的复杂性或者说是学习能力的一个重要指标, 在此概念基础上发展出了一系列关于统计学习的一致性、收敛速度、推广性能等的重要结论。

在统计学习理论的基础上发展了一种新的通用学习方法——支持向量机 (Support Vector Machine, 简称SVM) , 该方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的, 根据有限的样本信息在模型的复杂性 (即对特定训练样本的学习精度) 和学习能力 (即无错误地识别任意样本的能力) 之间寻求最佳折衷, 以期获得最好的推广能力。

2.2 基本原理

支持向量机的理论最初来自于对数据分类问题的处理, 其机理可以简单描述为:寻找一个满足分类要求的最优分类超平面, 使得该超平面在保证分类精度的同时, 最大化超平面两侧的空白区域;从理论上来说, 支持向量机能够实现对线性可分数据的最优分类。

具体来说, 从最简单的情况开始:考虑图1所示的二维两类线性可分情况, 图中实心点和空心点分别表示两类的训练样本, H为把两类没有错误的分开的分类线, H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线, 那么H1、H2之间的距离即两类的分类间隔 (margin) 。所谓最优分类线就是要求分类线不但能将两类无错误的分开, 而且要使两类的分类间隔最大。前者是保证经验风险最小 (为0) , 后者实际上是为了使置信范围最小, 从而使实际风险最小, 这是对结构风险最小化原则的具体实现。推广到高维空间, 最优分类线就成为最优超平面 (Optimal Hyperplane) 。

对于非线性的数据分类问题, 其机理是将输入向量映射到一个高维的特征向量空间 (Hilbert空间) , 并在该特征空间中构造最优分类面, 这就是支持向量机算法。由于低维输入空间向高维特征空间映射过程中, 空间维数急速增长, 这就使得在大多数情况下难以直接在特征空间直接计算最佳分类平面。支持向量机通过定义核函数 (Kernel Function) , 巧妙的将这一问题转化到输入空间进行计算。

其具体机理如下。

假设有非线性映射中:φRn→H将输入空间的样本映射到高维特征空间H中, 当在特征空间中构造最优超平面时, 训练算法仅使用特征空间中的点积, 即φ (xi) •φ (xj) 。所以, 若能找到一个函数K使K (xi, xj) =φ (xi) •φ (xj) , 这样, 在高维空间中实际上只需进行内积运算, 甚至不必知道变换φ的形式。

对于多分类问题, 支持向量机多类分类的方法主要包括两种, 一是将多个分类面的参数求解合并到一个最优化问题中, 通过求解该最优化问题实现多类分类;二是将多类分类问题分解成多个两类分类问题, 然后再采用某种方法将多个两类分类器的输出组合在一起实现多类分类[6]。

利用SVM处理多类分类问题的一对多 (One-Against-All) 方法的机理如下。

对于k类分类问题, 构造k-1个2-类SVM分类器, 每一类对应其中的一个, 将它与其它的类分开:其中第f个2-类SVM分类器是把第f类中的样本都标记为+1, 而其它所有的样本都标记为-1。也就是说, 第f个2-类SVM分类器所构造的分类超平面 (separating hyper1ane) , 把第f类与其它的i-1类分割开。其原理如图2所示。

3 建模与仿真

本文应用最小二乘算法支持向量机模型, 并利用模型评估电力变压器工作状态。选取输入量为H2, CO, C2H4, C2H2, C2H6等气体的浓度, 输出量为低能放电、高能放电、中低温过热、高温过热和正常等5种状态。

(1) 归一化处理。

利用式 (1) 将输入量和输出量都归一化[0, l]。

式中, xmax、xmin分别为H2, CO, C2H4, C2H2, C2H6等气体的浓度的最小值和最大值。

(2) 核函数选择。

本文选用径向基核函数:

得到的支持向量机是一种径向基函数分类器, 宽度σ2对所有核相同, 由使用者预先设定。

(3) 仿真实验。

所用的核心算法采用了Stephane Canu提供Kernel Methods Matlab Tb Toolbox的软件包的支持向量机算法。本文选择SMO算法, 并通过多次试验选择核参数γ=1, 惩罚因子C=10。

其仿真曲线如图3所示。

为了更好的体现SVM在模式分类与识别上的优越性, 同时选取Bayes分类器 (如图4) 对变压器状态进行分类。

在图3中, *、×、△、◎、⊙分别代表电力变压器的低能放电、高能放电、中低温过热、高温过热和正常等5种状态, 二图4则没有明确将变压器的物种状态加以区分。

4 结语

支持向量机分类器的结果与核函数的关系不大, 与惩罚系数和支持向量个数有关。然而, 由于SLT理论和SVM方法尚处在发展阶段, 很多方面尚不完善, 许多结论目前还只有理论上的意义, 尚不能在实际算法中实现;而有关SVM算法某些理论解释也并非完美。

摘要:针对变压器传统检测方法的局限性, 本文提出了一种基于支持向量机的电力变压器故障诊断方法, 并构建了相应的数学模型。仿真结果表明, 该模型能有效提高变压器故障诊断的准确率。

关键词:变压器,支持向量机,故障诊断

参考文献

[1]许婧, 王晶, 高峰, 等.电力设备状态检修技术研究综述[J].电网技术, 2000.

[2]陈家斌.电气设备故障检测诊断方法及实例[M].北京:中国水利水电出版社, 2003, 6.

上一篇:行政工作亮点下一篇:幼儿厨房后勤工作计划