维普资讯 http://www.cqvip.com 第36卷第7期 2002年7月 上海交通大学学报 Vo1.36 No.7 JOURNAL OF SHANGHAI儿A0TONG UNIVERSITY July 2002 文章编号:1006—2467(2002)07—0980—04 评价神经网络拟合精度的另一个指标 徐力平, 张炎华 (上海交通大学信息检测技术及仪器系,上海200030) 摘 要:在基于神经网络的故障检测中,要求神经网络拟合某特定动态系统时均方预测误差的均 值及其标准差均小,故在以均方预测误差的均值作为评价神经网络逼近特定动态系统性能的系统 化交叉证实法的基础上进行改进,以均方预测误差的均值和标准差两个指标评价神经网络逼近特 定动态系统性能.仿真结果证明,同时用两个指标不仅是可行的,而且比原系统化交叉证实法的选 择效果好. 关键词:神经网络;预测误差;均值;标准差 中图分类号:TP 18 文献标识码:A Another Criterion to Judge Performance of Neural Networks U Li—ping, ZHANG Yan—hua (Dept.of Information Measurement Technology and Instrument,Shanghai Jiaotong Univ. Shanghai 200030,China) Abstract:In some applications of neural networks,such as failure detection based on neural networks, both the average and the standard deviation of mean squared prediction errors are needed to be smal1.This paper modified a model selection method called cross validation to select the numher of hidden units in neu— ral networks from with one criterion to with the both criteria.The simulation result shows that selecting the number of hidden units in neural networks with the both criteria not only iS feasible hut also improves the model selection method more or less. Key words:neural networks;prediction errors;average;standard deviation 人工神经网络是高度复杂的非线性动力学系 统.神经网络的信息存储于连接权矩阵中,且存储区 等l_1 利用泛函分析理论,证明了在很宽的条件下,具 有至少一层s型神经元隐层的前传神经网络,用标 准BP算法经过足够的训练,能以任意精度逼近任 意函数及其各阶导数.Elskenl2 证明了单隐层网络 为好,增加隐层可导致网络性能的下降,故通常用单 隐层的网络.本文分析了神经网络作为在线状态估 计器,用于故障检测时对神经网络的要求,简述了现 有的选择网络隐层神经元数的方法及其缺陷,提出 和操作区合为一体,这使得神经网络具有较大的信 息冗余和容错能力,能用于信噪比较低的场合.更重 要的是它具有学习能力,只要用采集到的能反映系 统先验知识的数据训练神经网络,就能把有关系统 的先验知识存储于神经网络的连接权矩阵中,自动 完成动态系统的建模,不需要由人建立系统的数学 模型.由于神经网络有如此突出的优点,使其在传感 器故障检测方面得到了越来越多的应用.Hornik 收稿日期:2001—05—28 了同时用均方预测误差的均值和标准差作为选择的 指标,以改善选择的效果. 1传感器故障检测对神经网络的要求 在基于神经网络的故障检测方法中,利用神经 作者简介:徐力平(1956),男,江苏溧阳人,博士生,主要从事 导航及控制研究. 维普资讯 http://www.cqvip.com 第7期 徐力平,等:评价神经网络拟合精度的另一个指标 981 网络有几种不同的方式l_3 ].其中一种是利用神经 网络的函数逼近功能,以具有S型神经元隐层的多 的连接权值趋向于零,但并不真正将其除去,也不减 少神经元的数量. CV法是选择BP网络隐层神经元数比较适宜 的一种方法,它是基于数理统计的概念,通过比较具 有不同隐层神经元数的神经网络多次训练结果的证 层前传神经网络作为在线状态估计器,以各传感器 是一户至是时刻的读数形成的时间序列(或再加上系 统的输入)作为神经网络的输入,将其信息映射到时 间域得到其是+1时刻读数的估计l_-].根据预测值与 实际值之差是否超过某一预定的阈值判断传感器有 实误差的算术平均值确定孰优孰劣.用该方法选得 的BP网络不仅能较好地拟合训练集的数据,而且 无故障.其中神经网络的输入输出关系可表示为 (是+1)===NN( , (是),…, (是一户), “(是+1),…,“(是——,.)) (1) 此为对动态系统 (是+1)一F( (是),…, (是一户),U(是+1), …,“(是一,.)) (2) 的逼近.式中: (是+1)为神经网络对 (是+1)的估 计: (是一户),…, (是+1)E R 为是一户至是+1时 刻系统的输出(即传感器的读数);U(是一,一),…,U(是 +1)ER 为是一,.至是+1时刻系统的输入;F为函 数;W为神经网络的连接权矩阵;ⅣⅣ为神经网络 由输入向量导出输出向量的算法. 神经网络经过训练极小化ll (是+1)一 (是+ 1)l,建立起系统的神经网络预测模型,根据估计误 差 (是)一 (是)一 (是)l或其函数是否超过某一 数值判定有无故障.一般认为无故障时的 (是)(是一 1,2,…)的均方值越小,神经网络对特定动力学系统 的拟合精度越高,判定有无故障的阈值就可定的越 小,可检出的故障则越小,故障检测灵敏度越高. 但是,如果均方估计误差很小,但估计误差平方 的标准差很大,则无故障时也会有一些估计误差超 过阈值导致虚警.若为了减小虚警概率提高检测阈 值,则降低了检测灵敏度,也即增加了漏检概率.因 此,衡量作为在线状态估计器用于故障检测的神经 网络对特定动力学系统拟合精度的指标,除了均方 估计误差外,还应加上估计误差平方的标准差. 2选择神经网络结构的方法 现有的选择神经网络结构的方法可大致分为两 类:①使神经网络的结构从大到小,如WD(Weight Decay)法 和CSDF(Convergence Suppression Di— vergence Facilitation)法 ];②使神经网络的结构从 小到大,如系统化的CV(Cross Validation)法l-8].从 大3,1/1,的方法是训练一个比需要的结构大的神经网 络。在训练的过程中除去多余的连接和神经元.在此 类方法中,或是除去那些对误差方程影响最小的连 接或神经元,即修正已训练好的神经网络结构;或是 在目标函数中加入惩罚项,在训练过程中使不必要 对同一系统训练集以外的数据也能较好拟合,这在 许多神经网络的应用中都是必须的.CV法能与任 何神经网络训练算法配合使用,它把样本数据集均 分为 个子集,每次抽出一个子集,用剩余的 ~1 个子集的数据训练神经网络,由抽出的那个子集得 到均方预测误差(Mean Squared Prediction Errors, MSPE).这样依次得到 个MSPE.定义这 个 MSPE的算术平均值为交叉证实误差Ecv,即 1 Ecv一 —>:MSPE —(3) m=l 以Ecv作为衡量该神经网络拟合某动态系统性能的 标准. 系统化的方法就是从明显偏少的隐层神经元个 数开始,每次增加一个,用上述方法计算E 、,,并与 前一个E 、,比较,若新增隐层神经元后E 、,减小,则 接受这一新增隐层神经元,再增加一个隐层神经元 重复选择过程,直到有 +1个隐层神经元的E 、,值 大于有 个隐层神经元的E 、,值,于是,选定隐层神 经元为 个. 由于受神经网络初始化时随机因素的影响,用 这些方法选择所得的仿真结果均为既有大于也有小 于所需结构的,CSDF法还偶有不收敛的情况发生. 3选择神经网络结构时的评价指标 以神经网络作为在线状态估计器的故障检测方 法,不仅要求神经网络逼近某特定动态系统的均方 预测误差的均值要小,还要求均方预测误差的标准 差也要小.为此,本文通过改进系统化的CV法尝试 了在选择神经网络的结构时同时用这两个指标决定 取舍. 系统化的CV法以MSPE的算术平均值E 、,随 隐层神经元个数增加的变化趋势选择神经网络的隐 层神经元个数.如果MSPE的标准差 具有与 E 、,类似的变化趋势,则同时根据E 、,和O'MSPE随隐层 神经元个数增加的变化趋势选择神经网络的隐层神 经元个数将是可能的. 为了验证是否可行,本文试用某船上平台罗经 的一段实航数据,进行了选择神经网络隐层神经元 维普资讯 http://www.cqvip.com 982 上 海 交 通 大 学 学 报 第36卷 隐层单元数 1 2 3 4 5 6 7 8 9 10 表2第2次选择中不同隐层神经元数的神经网络MSPE的均值和标准差 Tab.2 The sample standard deviation and average of MSPE VS hidden units in the 2nd selection (。) 隐层单元数 数的仿真.由于在线状态估计器是用时间序列中前 面的数据进行训练,对后面的数据进行估计,因此在 仿真时未采用把样本均分为M份的方法,而是固定 以前一部分作为训练集,后一部分作为证实集.以不 同的随机初值重复训练Ⅳ次,由这Ⅳ次的MSPE 计算Ecv,并同时计算 s 另外,由于原系统化的 交叉证实法多次选择的结果可能不一致,为了解 Ecv和 s 随隐层神经元数增加的变化趋势,未在 E 开始增加时立即停止. 仿真是用平台罗经读数时间序列中1~1 000 的数据作为训练集,1 001~1 100的数据作为证实 集.神经网络的输人为愚一P至是的方位角增量、横 摇角和纵摇角,输出是对愚+1时横摇角的估计.考 虑到原方法中把样本数据均分为M个子集时受样 图1 均方预测误差的均值、标准差与隐层 神经元个数的关系 Fig.1 The standard deviation and average of MSPE VS the No.of hidden unitS 本大小的限制,M的取值不可能大,因此取N一10. 设定输入延迟P一4,以不同的伪随机种子数选择了 2次,以原方法的选择标准得到两个不同的结果(见 表1、2),第1次为4个隐层神经元,第2次为5个隐 层神经元. 选择2次就出现不同的结果,这表明出现不同 变化幅度较大,其值在一定范围内的随机波动对其 排序的影响就小一些.这2次选择中, 的值第1 次由下降转为上升点(也是其最小点)皆是隐层神经 元数为6.由此可以推断,若分别以& 和O'MSPE作为 评价指标所得结果不一致,则N过小,所得结果不 可靠.将Ⅳ增大至100,选择3次,第1次开始时伪 随机数发生器为初始状态,第2、3次用系统时间的 函数设置伪随机数发生器,数据见表3.N一100时 对应于E 最小的隐层神经元数第1次和第3次均 为8,第2次为7;而 s 3次均为8,但它们都不是 第1次由减小到上升的转折点.另外,& 与O'MSpE之 和最小3次对应的隐层神经元数均为8. 由此可见,改进的系统化的交叉证实法,以&v 的选择结果不是小概率事件.本文注意到在选择过 程中,对应于同样数量隐层神经元的网络,其10次 训练完成时的10个MSPE的离散程度随着隐层神 经元个数的增加由较大到较小再逐渐增大.为了直 观起见,图1绘出了第1次选择过程中隐层神经元 个数从1~3O对应的Ecv和 Ms e的变化曲线.由图 1可见,O'MSPE与 随隐层神经元个数变化的趋势基 本一致,而且 sr 的变化更明显,因而 Msr 可以与 和O'MSPE作为评价指标,若Ecv最小和O'MSPE最小对应 E 一起作为选择神经网络结构时的评价指标. 仅用E 、,作为评价指标时,两次选择就出现不 同的结果显然是由于N一10时样本容量太小导致 同一隐层神经元数,则得到选择结果;若不一致,则 增大Ⅳ重新选择;若因故无法增大Ⅳ,则以Ecv与 O'MSPE之和最小对应的隐层神经元数作为选择结果. 由于E 、,和O'MSPI ̄最小点不一定是第1次由减小到上 样本均值随机性过大,而 因随隐层神经元数的 维普资讯 http://www.cqvip.com 第7期 徐力平,等:评价神经网络拟合精度的另一个指标 983 升的转折点,因此不能在E 、,或O'MSPE一有反弹时就 369—385. 结束,而是以Ecv或O'MSPE连续大于其最小值次数之 和达到某个设定值时结束. [3] Narendra K S,M ukhopadhyay S.Intelligent control using neural networks[J].IEEE Control Systems Magazine,1992,12(2):11—18. 4 结 语 本文在原用均方预测误差的均值作为评价神经 网络逼近特定动态系统性能指标的基础上,加上均 方预测误差的标准差共同作为评价神经网络逼近特 定动态系统性能的指标既是某些神经网络应用所需 要的,也是可行的.而且,采用这两个指标作为选择 神经网络隐层神经元数的择优标准,其效果比原系 统化交叉证实法要好. 参考文献 [1]Hornik K,Stinchcombe M,White H.Universal ap一 proximation of an unknown mapping and its deriva— du S R,Zafiriou E,McAvoy T J.Use of neural [4] Nainetworks for sensor failure detection in a control sys tem[J]、IEEE Control System Magazine,1 990,1 0 (3):49—55. r 5] Napolitano M R,Neppach C,Casdorph V,et a1. Neural—.network——based scheme for sensor failure de tection,identification,and accommodation[J].Jour nal of Guidance,Control,and Dynamics,1995,1 8 (6):1280—1286. [6] Russell R.Pruning algorithms——a survey[J].IEEE Transaction on NeuraI Networks,1993,4(5):740— 747. [7] Syozo Y.Convergence suppression and divergence fa tives using muhilayer feedforward networks[J].Neu— raI Networks,1 990,3(3):551—560. cilitation:minimum and joint use of hidden units by multiple outputs[J].Neural Networks,1997,10(2): 353—367. [2] Elsken T.Even on finite test sets smaller nets may perform better[J].Neural Networks,1997,10(2); [8] Anders U,Korn O.Model selection in neural net— works[J].Neural Networks,1999,12(2);309—323. 下期发表论文摘要预报 基于结构的神经网络在参数优化中的应用 乔俊伟, 施光林, 詹永麒 (上海交通大学机械工程学院,上海200030) 摘 要:在对传统人工神经网络优化方法的认识基础上,针对复杂非线性系统的优化问题,提出一种基于结构的神 经网络优化方法.它将一个复杂系统转化为若干个较简单的子系统,分别建立各子系统的函数链神经元模型,然后 根据原系统的结构特点将它们连接起来构成一个基于结构的神经网络.网络权值与系统的结构参数相对应,具有 明确的物理意义,通过调整权值即可实现系统结构参数的优化.对Y 一Hcl0型先导式溢流阀的优化研究表明,该方 法为大型、严重非线性系统的结构参数优化提供了一条新的途径.