支持向量机算法原理相关文献

下载本文档

ID 352747
格式 doc
大小 201 KB
约9页
收藏
点赞(0)
海报
举报

/ 9

下载本文档

文本预览下载提示常见问题

支持向量机算法和软件ChemSVM介绍陆文聪1，陈念贻1，叶晨洲2，李国正2（1.上海大学化学系计算机化学研究室，上海，200436）（2.上海交通大学图象及模式识别研究所，上海，200030）摘要VladimirN.Vapnik等提出的统计学习理论（statisticallearningtheory，简称SLT）和支持向量机（supportvectormachine，简称SVM）算法已取得令人鼓舞的研究成果。本文旨在对这一新理论和新算法的原理作一介绍，并展望这一计算机学界的新成果在化学化工领域的应用前景。“ChemSVM”软件提供了通用的支持向量机算法，并将其与数据库、知识库、原子参数及其它数据挖掘方法有机地集成起来。关键词模式识别；支持向量机；支持向量分类；支持向量回归：O06-04IntroductiontotheAlgorithmofSupportVectorMachineandtheSoftwareChemSVMLUWen-cong1,CHENNian-yi1,YEChen-zhou2,LIGuo-zheng2(1.LaboratoryofChemicalDataMining,DepartmentofChemistry,ShanghaiUniversity,Shanghai,200436,China)(2.InstituteofImageandPatternRecognition,激aotongUniversity,Shanghai,200030,China)Abstracts:Thegreatachievementshavebeenapproachedinthedevelopmentofstatisticallearningtheory(STL)andsupportvectormachine(SVM)aswellaskerneltechniques.ThispaperaimedatintroducingtheprincipleofSLTandSVMalgorithmandprospectingtheirapplicationsinthefieldsofchemistryandchemicalindustry..KeyWords:Statisticallearningtheory,Supportvectormachine,Supportvectorclassification,Supportvectorregression众所周知，统计模式识别、线性或非线性回归以及人工神经网络等方法是数据挖掘的有效工具，已随着计算机硬件和软件技术的发展得到了广泛的应用[1-4]，我们亦曾将若干数据挖掘方法用于材料设计和药物构效关系的研究[5-12]。但多年来我们也受制于一个难题：传统的模式识别或人工神经网络方法都要求有较多的训练样本，而许多实际课题中已知样本较少。对于小样本集，训练结果最好的模型不一定是预报能力最好的模型。因此，如何从小样本集出发，得到预报（推广）能力较好的模型，遂成为模式识别研究领域内的一个难点，即所谓“小样本难题”。最近我们注意到：数学家VladimirN.Vapnik等通过三十余年的严格的数学理论研究，提出来的统计学习理论（statisticallearningtheory，简称SLT）[13]和支持向量机（supportvectormachine，简称SVM）算法已得到国际数据挖掘学术界的重视，并在语音识别[14]、文字识别[15]、药物设计[16]、组合化学[17]、时间序列预测[18]等研究领域得到成功应用，该新方法从严格的数学理论出发，论证和实现了在小样本情况下能最大限度地提高预报可靠性的方法，其研究成果令人鼓舞。张学工、杨杰等率先将有关研究成果引入国内计算机学界，并开展了SVM算法及其应用研究[19]，但国内化学化工领域内尚未见SVM的应用报道。本文是本论文系列的第一篇，主要介绍Vapnik等在SLT基础上提出的SVM算法，包括支持向量分类（supportvectorclassification，简称SVC）算法和支持向量回归（supportvectorregression，简称SVR）算法，并展望这一计算机学界的新成果在化学化工领域的应用前景。收稿日期：2002-06-10；修回日期：2002-09-10资金资助：国家自然科学基金委和美国福特公司联合资助，批准号：9716214作者简介：陆文聪（1964—），男，教授。研究方向：计算机化学。1统计学习理论（SLT）简介[13]1.1背景现实世界中存在大量我们尚无法准确认识但却可以进行观测的事物，如何从一些观测数据（样本）出发得出目前尚不能通过原理分析得到的规律，进而利用这些规律预测未来的数据，这是统计模式识别（基于数据的机器学习的特例）需要解决的问题。统计是我们面对数据而又缺乏理论模型时最基本的（也是唯一的）分析手段。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题，但这些研究长期没有得到充分的重视。近十年来，有限样本情况下的机器学习理论逐渐成熟起来，形成了一个较完善的SLT体系。而同时，神经网络等较新兴的机器学习方法的研究则遇到一些重要的困难，比如如何确定网络结构的问...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。