支持向量机及其他核算法在化学计量学中的应用

支持向量机及其它核函数算法在化学计量学中的应用陈念贻1,陆文聪1,叶晨洲2,李国正2(1.上海大学化学系计算机化学研究室,上海,200436;2.上海交通大学图象及模式识别研究所,上海,200030)摘要:化学、化工领域中多数数据处理问题属于数学中的“不适定问题”(ill-posedproblem),而传统的化学计量学算法如线性和非线性回归,人工神经网络等忽略了这一特点,将其作为“适定问题”(well-posedproblem)求解。是引发数据处理中“过拟合”问题的重要原因。近年来新提出的“支持向量机算法”适合于处理不适定问题,能限制过拟合,且因采用核函数算法,能有效处理非线性数据集。和当前化学化工中应用极广的人工神经网络相比,优越性明显。在化学化工中具有巨大的应用潜力。关键词:不适定问题;过拟合;支持向量机算法;化学化工中的应用中图分类号:O06-04ApplicationofSupportVectorMachineandKernelFunctioninchemometricsCHENNian-yi1,LUWen-cong1,YEChen-zhou2,LIGuo-zheng2(1.LaboratoryofChemicalDataMining,DepartmentofChemistry,ShanghaiUniversity,Shanghai,200436,China)(2.InstituteofImageandPatternRecognition,JiaotongUniversity,Shanghai,200030,China)Abstract:Inthefieldsofchemistryandchemicalengineering,mostofthedataminingproblemsareactually“ill-posedproblems”.Butthetraditionalmethodsinchemometrics,suchaslinearornonlinearregressionandartificialneuralnetworks,usuallyignoretheill-posedcharacteristicsandtreatthemas“well-posedproblems”.Thisignoranceusuallyinducessignificantoverfittingproblems.Anewlyproposedtechniqueofdatamining,called“supportvectormachine”,issuitableforthedataminingofill-posedproblems,withoutsignificantoverfitting.Besides,sincekernelfunctionisusedinthismethod,itisverysuitableforthedataminingofnonlineardatasets.SincethisnewmethodhassignificantadvantagescomparedwithANN,whichisnowwidelyusedinthefieldsofchemistryandchemicalengineering,supportvectormachineexhibitsgreatpotentialitiesformanyapplicationtopicsinchemistryandchemicalengineering.Keywords:ill-posedproblem;overfitting;supportvectormachine;applicationsinchemistryandchemicalengineering.1许多化学化工中的数据处理问题都是数学上的“不适定问题”(ill-posedproblems),而传统的化学计量学算法将其当作适定问题求解建模,是造成过拟合的重要原因在各种化学,化工的研究和应用工作中,经常要从已知数据中总结规律,用以预报未知。自从计算机技术长足进展以来,应用计算机从已知数据中总结规律,即所谓“机器学习”(machinelearning)的应用已很普遍。除传统的线性回归外,人工神经网络和各种模式识别技术都在广泛使用。并已取得许多成果。当数据的规律接近线性时,用线性回归总结规律,通常认为是标准的、最可靠的方法。如果规律偏离线性,则通常用人工神经网络总结规律,或在线性方程中添加平方或其它高阶项作非线性回归这就是当前化学化工领域中常用的数据处理算法。数据处理,总结数学模型的目的是为了预报未知。但是在实践中,人们经常发现用上述各方法总结的数学模型对已知数据(即所谓训练集)常能拟合较好,而在预报未知样本时,偏差往往较大。当训练样本较少,而影响因素(自变量)较多时,亦即在小样本问题中此问题尤其严重。在数学上将这种现象称为数学模型的“推广能力”(generalizationability)不足的问题。如何提高算法和数学模型的推广能力,以确保我们预报结果的可靠性,显然是化学化工数据处理中非常重要的课题。这其实就是如何避免“过拟合”(overfitting)和“欠拟合”(underfitting)现象的问题。1收稿日期:2002-06-10;修回日期:2002-09-10资金资助:国家自然科学基金委和美国福特公司联合资助,批准号:9716214作者简介:陈念贻(1931-),男,教授,研究方向:计算机化学1可举本论文系列中报导的氧化铟半导体薄膜的厚度预报为例。根据薄膜厚度和影响因素(溶液成分,粘度,提拉速度,提拉次数...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?