基于BERT模型的政策条件识别研究

基于BERT模型的政策条件识别研究顾佳怡摘要企业想要从近年国家推出的各种惠企政策中找到适合自身的优惠政策需要花费大量的时间,为了节省时间成本以及实现惠企政策更好的推送,本文利用BERT+DNN模型的方式,使用BERT将政策文本向量化,从而赋予句子一定的含义。而后向DNN网络输送数据,训练出分类模型使其能够自动识别政策文件中企业申领补贴所要达到的条件。在仅仅解读了166篇文件的情况下,最终得出大多数分类的准确率都达到了80%以上,而且可知DNN所获取的训练数据越多,分类就会越准确。更精准的模型能够节省很大时间成本与人力成本解读政策并且为后续任务提供支持。关键词自然语言处理;TF-IDF;Single-Pass聚类;热点问题提取:F626;TP391.1:ADOI:10.19694/j.cnki.issn2095-2457.2020.07.0930引言近几年国家推出许多惠企政策,用以降低企业经营负担;鼓励、扶持企业创办;援助、恢复企业生产力等。针对不同地区、不同类型的企业会推出不同的政策;同一个政策文件中有对企业申领补贴的条件、补贴的项目、申报的材料等各字段。面对各类惠企政策,很多企业难以分散出精力去研究自身能够获得哪些补贴。为了能够让企业获得更多的实惠,判定企业可以获取哪些政策给予的补贴。首先要判定该企業是否满足政策的补贴申领条件。本文基于福建省福州市地方政府出台的各类政策,利用BERT模型结合DNN训练出的分类模型用以识别政策的中的各种条件。为后续给企业推送、政策匹配以及给企业做出政策申请的诊断做技术铺垫。1理论模型1.1BERT模型使用计算机从政策中提取条件之前,首先要让计算机识别政策中哪些字段属于条件,BERT模型是由Google公司训练的,可以将字、句子进行向量化并且赋予字向量、句子向量一定意义的模型,其最大的特点在于能够在不同的语境赋予字不同的意义并且以句子为单位将整句话的意义融合到句子开头的符号中。本文将用于政策中的句子输入到BERT模型,得到可以用于后续任务的词向量与句向量。1.2DNN模型DNN即为深度神经网络,是包含输入层、隐藏层和输出层的神经网络。网络会通过自身的神经元进行复杂的运算,整合出输入数据与输出数据的关系。从而发现事物的特征以及事物之间的内在关联,并以参数的形式存储下来。新的数据进入模型,根据已经存储下来的参数进行计算可以自动分类。2政策条件识别实证研究2.1研究流程首先收集福州工信局、福州市人民政府、福州市政府公开信息栏这三个门户网站发布的政策。第二,将收集好的政策按照句子为单位拆分。第三,依据企业标签体系将政策中的企业申报补贴条件打上对应的标签值。第四,将所得句子输入到BERT模型,获取句子的句向量。第五,将数据分为训练集与验证集,并将训练集输入到DNN模型中进行训练。最后利用验证集检验模型分类效果。2.2数据预处理2.2.1政策文件的收集与处理首先,本文利用网络爬虫技术,收集了来自福州工信局、福州市人民政府、福州市政府公开信息栏三个政府门户网站的166个政策文件。然后,设定规则将政策文件按照句字拆分并清理掉无用的符号,总共得到8465句话。最后将数据输入到GOOGLE训练好的专用于中文词向量化的BERT模型中,得到句子向量化后的数据。并将数据分为训练集与测试集。2.2.2企业标签的获取本文设定9个维度去刻画一家企业,分别为:基础信息、经营状况、企业绩效、企业发展、经营风险、知识产权、社会贡献、舆情信息、企业法人群体。政策文件中对企业申领补贴的条件会与这9个维度的标签相对应。所以政策文件中属于申领补贴条件的句子会被打上标签值为1-9的标签;若政策文件句子不属于任何维度则标签值为0。2.2.3数据的分布整理本文得到各类条件的占比以及分类如表1。2.3基于BERT模型输出结果说明本文使用的BERT模型,是由GOOGLE发布的用中文训练所得模型。将数据输入模型得到每个句子的向量,输出的结果中包含的信息如下:●整个BERT模型由12层transformer构成,本文结果从倒数第二层取出。●结果中包含8465个条目,每个条目与训练前的句子一一对应。●每个条目中都有名为CLS的向量,其维度为768维,包含了整句话的所有信息。●各条目中包含了原句的单个字的信息,每个字都被训练为768维度的向量。...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?