基于多模深度神经网络生成图像描述研究

基于多模深度神经网络生成图像描述研究摘要:图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,BT为0.63,B-2为0.45,BT为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。关键词:自然语言描述模型;改进Faster-RCNN;BRNN;多模嵌入;模态对齐D0ID0I:10.11907/rjdk.181011:TP317.4文献标识码:A:1672-7800(2018)008-0040-05英文摘要Abstract:NowadaysmillionsofpictureshavebecomecommunicatemediaoftheInternetinformationparedwithwords,picturesaremorevivid,easy-to-understandandtheyareinterestinginformationtopeople.Therefore,theresearchonautomaticacquisitionofimagecontenthasgreattheoreticalandpracticalsignificance.Thispapermainlyintroducesanaturallanguagedescriptionmodelbasedonimagetogenerateitscontent.ItismainlybasedonanimprovedFaster-RCNNappliedtotheimageregion.BRNNisappliedtosentencesandastructuredobjectivewhichalignstwomodalitiesbyamultimodalembedding.Thesimilarityassessmentbetweenexperimentaldescriptionandtheoriginaldescriptionofthepictureareasfollowed:theB~1was0.63,theB~2was0.45andtheB~1was0.32.Theperformanceofthemodelwasobviouslyimprovedcomparedwithsomeoftheoriginallanguagedescriptionmodels,whichshowedthatthemodelhascertainpracticality.英文键词KeyWords:naturalanguagedescriptionmodel;improvedfaster-RCNN;BRNN;multimodalembedding;modalityalignment0引言随着互联网技术的快速发展和电子设备数字影像技术的提高,人们更喜欢用智能手机拍摄和截屏,更方便、更快速地采集和记录信息。快速浏览一张图像足以让人们指出并描述关于视觉场景的大量细节。然而,如果只能通过识别出数字信息的计算机技术获取图像内容,其算法过程之复杂是难以想象的。目前大多数的视觉识别工作都集中在使用固定模型对图像进行标注上,虽然实现了对整幅图像内容的自动标注,但与人类可表达的丰富描述相比仍有很大的局限性。这些模型通常使用特定的模板对图片和句子进行学习,这对图片的丰富描述产生了限制。此外,有研究将复杂的视觉场景减缩为单个句子,这也是没必要的约束。本文的核心思想是:给模型输入一些图像及其相应的句子描述,将这些图片及句子数据集视为弱标签进行学习,学习连续的词段及在图片中对应的位置。通过大量的学习,模型可生成句子段并推断出其描述对应的图像区域,如图1所示。本文研究的目的是对给定的输入图片自动生成语言描述。提出一个多模嵌入模型,它能检索图片中的内容及所处位置,然后生成文本段对应到图片中所描述的区域,最后用文本段生成完整的句子描述。该模型涉及两种深度神经网络,分别是卷积神经网络(ConvolutionalNeuralNetworks,CNN)和循环神经网络(RecurrentNeuralNetwork,RNN)o本文利用改进的卷积神经网络学习图像从底层到高层的多示例融合视觉特征,对图像进行区域标注;基于双向循环神经网络学习人工描述序列中的语法和语义,然后对区域的文本段生成自然语言描述。1相关工作图像的多标签自动标注已有大量研究,如Gould和Socher等[1-2]研究了在固定类别集上对图片中的物体、场景和区域进行正确的语义标注。基于卷积神经网络能对图像进行多尺度的特征提取,在处理图像数据集时有很好的分类效果。针对一般模型在训练和测试时速度慢的特征,本文应用更快区域卷积神经网络(Faster-RegionConvolutionalNeuralNetwork,Faster-RCNN),在训练时占空相对较小,并且能提高检测运算的精度和速度。该方法标注内容更丰富,对区域的描述也更准确。对于图像的句子描述,Kiros等[3]提出了逻辑双线性...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?