面向向量处理器的二维矩阵卷积的设计与实现

面向向量处理器的二维矩阵卷积的设计与实现张军阳,郭阳(国防科技大学计算机学院,湖南长沙410073)摘要:为了加速卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,本文以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和卷积神经网络算法的深入研究,提出一种将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案;针对矩阵卷积中数据难以复用的问题,提出一种根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率;针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出一种将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案;设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、gtx1080TI、TI6678、FT-ma-trix2000平台进行了性能对比与分析。最终实验结果表明,相比多核CPU最高可加速238倍,相比TI6678可加速21倍、相比高性能gtx1080TI可加速663805倍。关键字:卷积神经网络;向量处理器;多核实现;矩阵卷积中国分类号:文献标志码:文章编号:Designandimplementationoftwo-dimensionalmatrixconvolutionbasedonvectorprocessorZHANGJunyang,GUOYang(CollegeofComputer,NationalUniversityofDefenseTechnology,Changsha410073,China)Abstract:Inordertoacceleratethecomputationalspeedofconvolutionalneuralnetworkmodelandfacilitatetheimple-mentationoflarge-scaleneuralnetworkmodelinembeddedmicroprocessor,thispapertakestheFT-matrix2000vectorproces-sorarchitectureastheresearchbackground,throughtheanalysisofthemulti-corevectorprocessorarchitectureandconvolu-tionalneuralnetworkalgorithm,adatalayoutschemeisproposedinwhichasmallerconvolutionkerneldataisplacedinascalarmemorybankandalargerconvolutionmatrixisplacedinavectorbank.Aimingattheproblemthatthedatainthema-trixconvolutionishardtoreuse,adynamicshufflingpatternwithdifferentdynamicconfigurableparametersbasedonthemov-ingstepsoftheconvolutionkernelisproposed,bycarryingoutdifferentshiftoperationsontheconvolutionmatrixelements,themultiplexingrateofconvolutionmatrixdataisgreatlyimproved.Aimingattheproblemthattwo-dimensionalmatrixcon-volutionisdifficulttomulticoreparallelismduetotheexistenceofdatacorrelation,amulti-coreparallelschemewithconvolu-tionmatrixsharingandconvolutionkernelmatrixmulticoreexclusiveisproposed.Twocomputingmethodsofconvolutionkernelsizeunchanged,convolutionmatrixsizechangeandconvolutionmatrixsizeunchangedandconvolutionkernelsizechangearedesigned,performancecomparisonandanalysisarecarriedoutinmainstreamCPU,gtx1080TI,TI6678andFT-ma-trix2000.Thefinalexperimentalresultsshowthatcomparedtomulti-coreCPUcanbeacceleratedupto238X,comparedtoTI6678canbeaccelerated21X,comparedtohigh-performancegtx1080TIcanaccelerate663805X.Keywords:convolutionneuralnetwork;vectorprocessor;multi-coreimplementation;matrixconvolution近年来,深度学习[1]受到了越来越多的关注,尤其是在图像识别[2]、语音识别[3]、机器翻译[4]自然语言处理等领域基于深度学习的目标识别技术都取得了重大突破,进而引发了机器学习和计算机视觉等领域的新一轮研究热潮。深度学习包括一系列神经网络模型,如卷积神经网络(ConvolutionalNeuralNetwork,CNN)[5-6]、深度置信网络(DeepBeliefNetwork,DBN)[7-9]、自动编码机[10]、循环神经网络(RecurrentNeuralNetwork,RNN)[11]等常用模型。尤其是基于CNN的模型在图像识别领域取得了重大突破,当前几乎所有的图像识别类任务中识别率最好的模型都是基于CNN。一般来说CNN模型有若干卷积层和池化层交替出现,最后由若干全连接层...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?