基于信息传播特性的新词发现方法研究_1

基于信息传播特性的新词发现方法研究曹春萍杨青林摘要:针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新词统计方法。实验结果表明:提出的基于信息传播特性的新词发现方法在查准率、召回率都要比使用中文ICTCLAP9115分词方法分词更好,更具有优势。关键词:信息传播;新词;发现方法;N-gram算法:TP301:ADOI:10.3969/j.issn.1003-6970.2020.09.053【Abstract】:InviewofproblemthatexistingmethodscannotidentifyChinesenewwordsontheInterneteffectivelyandquickly,andtheirlifecycleisrelativelyshort,thepaperproposesanewworddiscoverymethodbasedoncharacteristicsofinformationdissemination.ItobtainslistofcandidatewordstringswithN-gramalgorithm,filterswastewordstringsbasedonwordfrequencyandflexibility,realizesstatisticalmethodofnewwordsinmicroblogbasedoncharacteristicsofinformationdissemination.ExperimentalresultsshownewworddetectionmethodbasedoncharacteristicsofinformationdisseminationhasbetterprecisionandrecallratethantheChineseICTCLAP9115segmentationmethodwithadvantages.【Keywords】:Informationdissemination;Newwords;Discoverymethod;N-gramalgorithm0引言自微博出现以后,其以实时性和方便性受到广大网民的欢迎和热爱,已经发展为网络应用的爱宠。同时微博上汇聚的庞大用户以及比较自由的言论环境,又使微博发展为切实掌握社会热点的重要工具。伴随计算机信息技术和网络技术的发展创新和应用,计算机网络越发成为大众信息发布与文化传播交流的社会平台,因此产生一大批全新的网络用语和热词。一些普及度比较高的网络新词开始为众人所认可,并被逐渐扩展到中文词语库之中[1]。因为在网络世界中存在海量文本,而要想在文本中寻找到散落的网络新词单独凭借人工查找、查阅和统计比较困难,因而怎样在短时间内快速有效地对网络数据进行查阅并发现新词,这就成为一项迫切需要解决的现实问题。但网络文本数据庞大,因为其相关性比较差、组词并无规律,这些就导致部分规律原理方法很难直接套用;而单条网络文本因为其文本长度比较短,噪声比较大[2],这就造成传统的基于统计学的发现方法很难提高其最终准确率。因此,本文研究基于信息传播特性的新词发现方法。1基于信息传播特性的微博新词发现方法相比于常规的语料训练,微博语料库中包含的文本内容由于身处网络世界,要更为庞大复杂。除正常的文本信息以外,还会伴随诸多无意义的干扰选项,比如说表情符号中的[doge]、[泪]、[微笑]等等;微博用户或平台发布的网页链接,比如http://t.cn/8syl8qn等;符号“//@”用户名用代表转发用户,符号“@”+表示语句中提到的特定用户;由于绝大多数微博用户名不是正式网名,因此所有微博用户名称都不具有实际意义;以及微博语料库中的标点符号,由于文本的失真和非正式性,导致大量微博用户滥用标点[3]。这几种字符串并没有产生新词,因而能够将其从待处理语料库中过滤,直接以“空格”来取代,如此可进一步提升语料库的文本含量并有效降低后续操作的难度。1.1利用N-gram算法得出候选词串列表N-gram模型主要是根据如下一种假设:第个词语的出现只和前面个词语有关系,而和其他词语之间均无关联。我们以来表示这个词语,如此出现的概率就能够以来表示,这里使用代表词串。在保证大量训练语料的基础上,按照最大相似规则[4],就能够获取以下公式:1.2基于词频和词语灵活度过滤垃圾词串任何一个新词的出现,势必会伴随着绝大多数群众的大规模使用,而使用次数越少的词语并不具有发展为一个新词的可能性;同时因为互联网用户在建立文档的时候必然会出现输入法错误的操作,错别字等各式状况的发生,在新词候选集合中会出现诸多偶然性匹配,这种匹配在性质上并不纳入新词考虑范围内,绝大多数这种噪声元组是没有办法通过阈值的筛选,可是依然会有一小部分的噪声因为...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?