来源:互联网 发布时间:11-15
浏览量:
1 引 言
运用紫外光谱数据测量水体中有机污染物浓度是利用了含有C=C或C=O不饱和键的有机物具有吸收特定光谱的特性,这样根据紫外光谱区的丰富光谱信息,建立光谱数据与有机污染物浓度的数学模型,并由该模型的外推能力,根据未知水样的光谱对该水样的有机污染物浓度进行预测。因此,紫外光谱水质分析仪的关键技术在于数学模型的建立以及模型的外推(泛化)能力。
本文将支持向量机方法应用于紫外光谱在线水质分析仪,提出了有机污染物浓度与紫外光谱数据的支持向量机建模方法。由于支持向量机方法是基于结构风险最小化(SRM)准则,与基于经验风险最小化准则(ERM)的传统学习方法如部分最小二乘、神经网络相比,支持向量机方法得到的数学模型,其推广能力要优越于传统学习方法得到的模型。
2 支持向量机建模方法
建立紫外光谱数据与有机污染物浓度的数学模型,就需要一组已知有机污染物浓度的水样作标准样品组(训练样本),根据有机污染物浓度和紫外光谱数据采用回归估计方法估计出两者的数学关系。
假定训练样本集为{(xi,yi),i =1,2,…,l},其中xi∈RN为输入值,yi∈R为对应的目标值,l为样本数。对于紫外光谱测量有机污染物浓度问题,xi表示紫外光谱数据,yi表示对应的有机污染物浓度。定义损失函数为:
计精度相关的设计参数。
在采用支持向量机研究非线性样本集时,通过非线性函数(·)将训练集数据x映射到一个高维特征空间,在这个维数可能为无穷大的特征空间中构造估计函数,假定f(x)为如下形式:
采用拉格朗日乘子法求解上式的二次规划问题,可得到:
有贡献,支持向量由此得名,对应的学习方法称为支持向量机(SVM)。在支持向量中,④和⑤对应的xi称为边界支持向量(BSV),是训练误差超过ε的数据点,②和③对应的xi称为标准支持向量(NSV),是训练误差恰为ε的数据点,非支持向量是训练误差小于ε的数据点。
对于标准支持向量,如果0<αi< C(α*i=0),由式(12)知,ξi=0 ,则由式(10)可得到:
w·(xi)+ b-yi+ε=0 (15)
这样可计算估计函数中的参数b为:
注解2:对于二次规划问题可以得到唯一的全局最优解,因此SVM不存在局部最优问题。
注解3:由式(18)、(19)知,尽管通过非线性函数(·)将样本数据映射到具有高维甚至为无穷维的特征空间,但在计算估计函数时并不需要显式计算该非线性函数,而只需计算核函数K(xi,xj),从而避免高维特征空间引起的维数灾难问题。核函数的选择必须满足Merce条件,常见的核函数有多项式函数、径向基函数、多层感知器函数、样条函数等等。
3 实验部分
3.1 实验仪器
水样的紫外光谱是在紫外光谱水质分析仪上测量得到的,该分析仪主要结构如图1所示,来自光源(氘灯,波长范围200~810 nm)的紫外线经光纤传输到装有检测水样的流动采样池,由在线光谱仪对透射光的光谱进行测量,测量得到的光谱数据通过USB口进入计算机系统进行处理,并由所建立的数学模型计算水样的有机污染物浓度。光路系统采用美国海洋光学公司的光学设备。
紫外光谱水质分析仪测量有机污染物浓度的分析方法是一种间接方法,需要一组已知有机污染物浓度的水样作标准样品组,根据有机污染物浓度和紫外光谱数据,在计算机中建立数学模型。该模型内嵌到分析仪的计算软件中,这样,当测量未知水样时,通过所获得的光谱信息软测量出对应的有机污染物浓度。因此,分析仪的关键部件之一是计算软件,也就是数学模型,数学模型的预测能力、推广能力直接影响分析仪的测量精度。为了描述方便,本实验的有机污染物浓度只测量COD一个指标。对于COD的测量,光谱数据主要包括254 nm、265 nm、360 nm处的吸收光谱。
3.2 性能评价方法及指标
采用Leave One Out(LOO)交叉验证法评估模型的泛化能力及预测能力,即依次剔除一个样品后用剩余的样品建模,用该模型预测剔除样品的COD值。
本文采用估计误差最大绝对值(AEmax)、估计误差最小绝对值(AEmin)、估计误差平均绝对值(AEmean)、估计误差方差(MSE)等值作为性能指标评价模型的预测能力,其计算公式如表1所示。
3.3 支持向量机方法实现
在应用第2节描述的支持向量机方法进行紫外光谱测量COD值时,选用径向基函数作为核函数,即:
K(xi,x) =exp(-‖x-xi‖2/σ2) (20)
对式(9)的优化问题可以采用许多优化算法实现,在本实验中,采用了顺序最小优化算法(SMO)[4]。
3.4 实验结果与讨论
3.4.1 实验结果
图2为设计参数C =10,σ=3时的实验结果,由这些结果可知,采用支持向量机方法根据紫外光谱数据测量得到的COD值与通过化学分析法测量得到的COD值相接近,因此采用支持向量机方法可以有效地实现紫外光谱的COD测量。
3.4.2 设计参数C、σ对COD测量的影响
在应用支持向量机方法实现COD测量时,惩罚系数C、核函数参数σ都需要预先设定,这些自由设计的参数对COD预测会有一定的影响。表2给出了C变化、σ不变(σ=3)时对应的性能评价指标计算值,表3给出了σ变化、C不变(C=10)对应的性能指标计算值。可见在应用支持向量机实现紫外光谱的COD值测量中,COD测量精度对σ的变化较为敏感,而对C的变化不太敏感。
3.4.3 支持向量机方法与部分最小二乘算法、神经网络方法的比较
在目前市场上的紫外光谱水质分析仪中,大部分都采用了传统统计方法,如最小二乘(LS)、部分最小二乘(PLS)方法进行数学建模。表4给出了本文提出的SVM测量方法与LS、PLS、神经网络(NN)等方法的比较,其中SVM方法的参数取为C =10,σ=3;神经网络方法的网络结构为3-6-1。由表4可知,SVM方法建立的数学模型,其预测能力要优于PLS方法、神经网络方法。
4 结束语
紫外光谱水质参数分析仪的测量方法本质上是建立紫外光谱数据与有机污染物浓度之间的数学模型,并利用该模型的泛化能力,根据未知样品的光谱数据对该样品的有机污染物浓度进行预测。因此测量精度主要取决于所建数学模型的泛化能力。支持向量机方法是统计学习理论中结构风险最小化准则的具体实现,由此得到的回归估计具有较好的泛化能力、预测能力,因此应用支持向量机方法实现的紫外光谱水质参数分析仪具有较好测量精度。
[参考文献]
[1] VapNIk V N.The Nature of Statistical Learning Theory[M].Springer-Verlag,NewYork,1995.
[2] Vapnik VN.Statistical LearningTtheory[M].NewYork,1998.
[3] 李国刚.水质TOC在线自动分析仪的现状[J].环境监测管理与技术,2000,12(6):18-19.
[4] Flake G W,Lawrence S.Efficient SVM Regression Training withSMO[J].Machine Learning,2002,46:271-290.
上一篇 : 暂无 下一篇 : 烤地瓜机 烤地瓜机烤地瓜的原理
版权声明:
1.华商贸易网转载作品均注明出处,本网未注明出处和转载的,是出于传递更多信息之目的,并不意味 着赞同其观点或证实其内容的真实性。
2.如转载作品侵犯作者署名权,或有其他诸如版权、肖像权、知识产权等方面的伤害,并非本网故意为之,在接到相关权利人通知后将立即加以更正。联系邮箱:me@lm263.com