基于NLP的公众人物信息数据挖掘研究

基于NLP的公众人物信息数据挖掘研究撰写时间:202X年XX月XX日黄莉摘要NLP指自然语言处理,将人类特有的语言转为结构化数据,是数据挖掘中人机交互的基础。本文以公众人物的公开文本信息为数据集,基于NLP自然语言处理的词向量及余弦相似度,主要对相近职业、月亮星座和地理位置3个维度展开浅层分析。为初步建立画像特征,挖掘步骤分为数据探索、爬虫采集和数据预处理,数据量级、颗粒度、泛化和评估仍有待优化。关键词数据;维度;NLPdoi:10.3969/j.issn.1673-0194.2021.08.087中图分类号TP311.10文献标识码A文章编号1673-0194(2021)08-0-021數据探索数据探索包含数据质量分析和数据特征分析,是为了进一步数据采集、预处理和建模,通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。数据质量分析需要准备可信的数据,是数据挖掘的重要基础,直接影响模型和结论的有效性和准确性。需要观测收集样本数据源的数量和质量,检查原始数据状态,如缺失值、异常值、非一致值、重复值等数据,分析比较明显的规律和趋势、各因素之间的关联性,满足模型构建的要求。数据特征分析一般是分布分析和统计量分析。分布分析能揭示数据的分布特征和分布类型。通过定量数据分布分析,了解其分布形式是对称的还是非对称的,发现某些特大或特小的离群值;通过定性数据分布分析,根据定性变量的类型来分组。统计量分析则有集中和离中趋势度量、趋势度量、周期性分析、贡献度分析、相关性分析。截至2021年,维基百科的文本集字段有文章编码、标题、章节标题、章节文本。公众人物相关文本集的存储结构以姓名为标题,章节标题一般包含简介、早期、家庭、教育或生涯,因此本文所需的数据主要采集于早期。2数据采集元素采集的规则是,通过姓名实体识别,初步采样英文人名名单样本框。以姓名为索引,从维基百科英文网简单随机抽样,按出生日期截取初步样本数据集。其中出生日期的时间序列跨度主要为2021(19-192021);公众人物样本单元数为310;维度简化至12个,分别为:姓名、职业、行业代码、月亮星座、星座属性、出生日期、死亡日期、年龄、所属洲、原国籍、国籍和性别。职业元素结合国际劳动管理组织202x年发布的职业国际标准分类ISCO-08确定,一人多职者,由该职的突出性确定入样权重。国籍的元素则根据国际标准化组织管理的国家代码ISO3166-1-202x进行数据变换。这里月亮星座的算法是b=int(a-0.2+0.4n),a和b分别是太阳星座和月亮星座的编码,n是农历生日的“日”部分。3数据预处理数据预处理主要包括数据清洗、数据集成、数据变换和数据规约。3.1数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,过滤与挖掘主题无关的数据,处理缺失值、异常值等。采取删除记录、数据插补来解决缺失值的问题。通过删除含有异常值的单元来保全完整度是最有效的,但减少历史数据会造成资源大量浪费和信息丢失。数据集越小,对分析结果的客观性和正确性影响越大。3.2数据集成数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)的过程。要考虑实体识别和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。实体识别指筛选并整合与挖掘有关实体,如识别同名异义、异名同义、单位不统一,用相关分析检测并删除冗余属性(重复或近义)。3.3数据变换数据变换主要是对数据进行规范化处理,如平方、开方、取对数、差分运算等,将数据转换成便于机器运算的形式,以适用于挖掘任务及算法的需要。变换常用来将不具有正态分布的数据变换成具有正态分布的数据。维度内区间跨度差别很大,可使用对数变换对其进行压缩。在时间序列分析中,有时简单的对数变换或者差分运算可以将非平稳序列转换成平稳序列。数据规范化(归一化)处理是数据挖掘的基础步骤之一。基于距离的挖掘算法有离差标准化、标准差标准化、小数定标规范化、连续属性离散化。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响数据分析结果。为了消除指标之间的量纲和取值范围差异...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?