概念图在文献集合研究中的一个新模型

概念图在文献集合研究中的一个新模型[摘要]概念图是一种知识以及知识之间关系的网络图形化表征。本研究中将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型GLDA,用来学习文档中的概念图。并将此模型应用于维基百科中关于机器学习的文献集合加以验证,同时与高阶弹球分布模型(hPAM)与高阶潜在狄里克来分布模型(hLDA)进行了比较,对模型的优缺点进行了分析。[关键词]概念图;潜在狄里克来分布;弹球分布模型;机器学习DOI:10.3969/i.issn.1008-0821.2015.01.017[]G254.0[文献标识码]B[]1008-0821(2015)01-0091-05概念图(conceptmap)是一种知识以及知识之间关系的网络图形化表征,它是一种用节点代表概念、连线表示概念间关系的图示法。康奈尔大学的约瑟夫?D?诺瓦克(JoserphD.Novak)教授于20世纪70发展出概念图绘制技巧。一幅概念图通常由“节点”、“链接”和“有关文字标注”组成。概念图对于知识表征、协同与组织沟通、教育、教学设计、训练等领域都有重要的应用。概念图对于总结文献集合很有用,并且可以提供一种语义内容和大文献集合结构的可视化。概念图的一个典型例子就是维基百科中的分类图,如图1就是维基百科中关于机器学习的分类图的一部分子图,从这个图中我们能够很快推断出维基百科中机器学习方面的文章主要强调的是算法和马尔科夫模型的演化。本研究中,将展示一个新的生成概率模型GLDA(GraphLatentDirichletAllocationh),来学习文本中的概念图,并对模型进行检验,应用于维基百科的文献集合进行试验,最后对模型进行了评价。本研究将在LDA、PAM、stickbreaking分布的基础上,设计新的生成模型,并解释它怎样适用于原始的图结构。并对模型获得了吉布斯抽样方程,而且在模拟数据和真实文本数据上的进行了一系列实验,最后将模型的性能与分层潜在狄里克来分布和分层Pachinko分布模型进行了比较,对该模型的优点和局限性进行了讨论。1.理论基础1.1潜在狄里克莱分布(LatenDirichletAuocation)LDA是给文本建模的一种方法,属于生成模型,足能够在文献收集中自动识别主题的概率模型。可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用词袋的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。由于Didchlet分布随机向量各分量问的弱相关性,标准的LDA模型并不包括主题之间的任何关系、依赖。4.结论本研究中我们将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型GraphlA)A,用来学习文档中的概念图。主要贡献如下:第一,我们展示了一个可能有无限多节点的有根节点、有向的无环图的一个可能的非参数先验。将图结构的非参数先验与潜在狄里克来分布结合在一起,构建了一个新的概率模型叫做GraphLDA,用来学习文档中的概念图。第二,我们展示了GraphLDA如何能够被用来学习文献集合中的概念图,如何能用来更新新的标签文献中的图结构。解释了GraphLDA在一个模拟文献集合中的执行情况,在这个集合中我们增加了被标注的文献的比例以用来进行训练学习。笫三,将GraphLDA的执行与高阶Pachinko分布模型(hPAM)与高阶潜在狄里克来分布模型(hLDA)进行了比较。解释了,GraphLDA在维基百科分类图中的应用。我们展示了GLDA如何被用来更新维基百科中的图的部分,以机器学习方面的文献集合为例进行了说明。研究提出的问题是学习一个给定文献集合的概念图,在这个集合中给文献标注上概念标签,可以得到一个原始的图结构。要得到一个原始图结构,任务就是识别语料库中没有在图中反映出来的那些概念,或者是图中没有反映出来的语料库中的概念之间的关系(通过文献中概念的共现关系实现)。这个模型对维基百科这样的文献集合来说尤为适合,因为在维基百科中文章集合变化得非常快,以至于自动方法用来更新概念图比手工编辑或者重新学习分类更合适。这个方法一个很重要的拓展就是应用到大图中,这是很有意义的一个实践。在抽样过程中计算每一条路径的概率也是值得去研究的一个课题,尤其足算法,M样,还可以探讨模型如何能够处理每个文献中的多重路径。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?