网络虚拟社区文本内容敏感词过滤系统研究

网络虚拟社区文本内容敏感词过滤系统研究摘要:针对网络虚拟空间中出现的敏感词不良信息如何减少的问题,以武汉科技大学论坛为代表的虚拟社区入手,针对论坛半结构化的内容特征,对于用户输入的文本内容采用字符串匹配算法设计了一套敏感词的过滤系统,该系统针对文本信息进行了有效过滤,对于虚拟社区敏感词不良信息的减少起到了一定的效果。关键词:虚拟社区;文本信息;敏感词;过滤系统:TB文献标识码:Adoi:10.19311/jki.1672-3198.2017.16.0931概述中国互联网络信息中心(CNNIC)发布了第38次《中国互联网络发展状况统计报告》(以下简称《报告》),《报告》显示,截至2016年6月,中国网民规模达7.10亿,上半年新增网民2132万人,增长率为3.1%,我国互联网普及率达51.7%,与2015年底相比提高1.3个百分点,超过全球平均水平3.1个百分点,超过亚洲平均水平8.1个百分点。由以上数据不难发现,我国现阶段互联网发展水平无论是从规模还是网民数量上都呈现出较强的增长趋势,客观上对于过滤技术的研究与发展起到了一定的推动作用。互联网同时还具有资源共享、实时交互性、个性化、虚拟化等特点,其中尤其以实时交互性与虚拟化的特点为突出,正如前面提到的,中国网民规模已达7.10亿之多,用户范围广,数量大,而且互联网的实时交互性拉近了人们彼此间的距离,促成了论坛等社交工具的诞生。然而网络的虚拟性导致人们不必在意交谈对象的构成,可以随心所欲表达自己的观点,这种现象也在一定程度上导致网络言论质量的参差不齐,甚至出现一些低俗污秽言论。因此对于网络环境净化平台的需求由此而生。由于时间及能力有限,并结合虚拟社区这一特殊信息载体,本文只针对网络净化平台下的敏感词过滤进行相关分析及研究。2相关理论与技术2.1网页文本提取和分类技术2.1.1HTML标签分析HTML文档主要由和两部分标签组成。标签主要是用来标记文档标题、等特征项内容,部分则是HTML文档主体的记录。每一部分都有相对而言特征值较为明显的子标签,如:中的、等,而在中又会有(加粗)、(超链接)等视觉体验较为明显的标签,具有较高的特征值。因此,在分析HTML标签时,大多数分析器会着重进行特征标签的分析。此外,LinShian等还将HTML标签分为了Informative、Skippable、Uninformative、Statistical四种类型。2.1.2网页分块分析一般来说网页内容并不是一个整体,而是由各个部分组成的,如:导航条、正文等,同样,每一部分对于用户浏览的影响程度也是不尽相同,如:导读内容会大于正文内容,而正文内容的重要性又大于广告部分。于是可以将网页划分成语义不相关的几部分,每一部分叫作语义块。而分块也可以根据视觉特征和内容特征进行划分。2.1.3中文分词技术---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---利用计算机进行语言处理,首先要让计算机能够以人的思维方式和习惯对文本进行处理,而中文分词相对于英文分词的难点在于分词符无法确定,英语基本上是以空格为分词符的,而中文并不能以单字进行划分,而且词语字数也并不唯一,多字词语的出现给中文分词提出了更高的要求。现阶段按照分词依据大体可分为如下三类:基于字符串的分词技术、基于理解的分词技术和基于统计的分词技术。目前比较成熟的是基于字符串的分词技术,也叫基于词典的分词技术,是按照事先确定的某个机器词典对用户输入内容进行处理,匹配特定的词语。因此又被称作机械分词算法;基于理解的分词技术是通过计算机模仿人的思维对句子进行理解,基于句法、语法分析,同时结合语义分析,通过对前后文的语境内容进行分析,达到识别效果,一般这种方法分为三个子系统:分词子系统、句法语义子系统、总控部分;而基于统计的分词技术则是较为理性的一种方法,这种方法的核心是找到构成词语频度较高的单字,从而进一步对这些单字及其前后组成的词语的频度进行统计,计算词语准确度;而分词的准确度对于接下来要进行的语词相关处理工作是基础工作,所以如何提高分词的准确度是重中之重。此外,还有基于DOM树的技术等。2.2敏感信息检测技术2.2.1基于文本内容的敏感信息检测基于文本内容的信息...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?