知网学习阶段总结--高梦娇

这段时间主要做的是对知网(Hownet)的全面了解,以及对本体建设工具protégé的简单应用。通过对知网和WordNet的了解,我发现知网和WordNet的建设方式是截然不同的。知网对每个概念的定义是通过这个概念使用时的具体的语义环境来加以限制的。通过限制概念使用时所需要的其他语义来定义每个概念。而WordNet则是通过对词语的解释,以及概念的上下位关系,同义反义关系等关系来定义每个词语。学会使用protégé,可以用他来建设自己的词汇本体的时候,我觉得可以结合知网和WordNet,对每个概念的定义中,既要体现它的各种关系词,同时还要用每个概念使用时的具体的语义环境对概念加以限定。下一步的任务就是进一步学习protégé,掌握它的具体功能,争取尽快建立一种新的结合了知网思想和WordNet思想的词汇本体。主要参考资料是知网中文版官方网站wwkeenage/html/c_index,另外还有一些文章包括《知网简介》,《知网的理论发现》,《KDML-知网知识系统描述语言》,《建设中文词汇语义资源中的一些问题和我们的对策》,《一个基于概念的中文文本分类模型》,《基于知网的词汇语义相似度计算》,《WordNet与hownet之关系比较》等。下面是我对知网和protégé应用的具体总结。一.对知网的全面了解的总结1.关于知网的基本介绍知网是一种词汇本体。知网(英文名称为Hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是知网的最基本的构成单位,同时也是知网中不能分割的最小单位。知网知识描述语言(KDML)是用来描述知网系统中所有概念的特定语言。知网中每一个概念都是通过KDML,利用义原进行逐一的、孤立的定义的。例如:以概念“打”的定义为例:W_C=打//中文词语G_C=V//中文词语词性E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了//中文词语例子W_E=buy//英文词语G_E=V//英文词语词性E_E=//英文词语例子DEF=buy|买//概念定义2.知网义原的选取首先,知网中义原的选择和取舍是基于主观选择的。义原是从4000个汉字的义项(一个词往往具有几个意义,每一个意义就是一个义项)中抽取,经过人工的观察,挑选,合并同类项最终得到的。知网中的义原一共有2199个。选取出来的义原又被分为实体类(如“human|人”),事件类(如“lose|失去”),属性类(如“form|形状”),属性值类(如“fragrant|香”)。这部分知识可以通过《知网简介》和《知网的理论发现》进行进一步了解。3.知网知识描述语言(KDML)KDML语言规则中详细规定了事件类、实体类、属性类、属性值类概念的描述方法,同时还规定了几种特定的标识符(如“,”“;”“=”)、几种特殊的指示符号(如“~”“?”“$”)和各种动态角色(如“agent”“hostof”)的使用方法。以概念“被告人”的定义为例:W_C=被告人G_C=N---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---W_E=accusedG_E=NDEF={human|人:{accuse|控告:patient={~}},domain={police|警}}在这个概念的定义中,human|人、accuse|控告和police|警都是知网系统中的义原。Patient、domain则是知网系统中的语义关系。第一个“:”后面的内容是对human|人的具体解释。被告人是被控告的人,即accuse|控告的patient(被动者)。同时被告人是由警察押送的,因此他的domain(施动者)是police|警。具体参见《KDML-知网知识系统描述语言》。4.知网的最新进展知网从2000年开始创立到现在,经过了两次大的改版,现在已经作为中文信息处理搭建和研发的基础平台。现在最显著的就是基于知网研发的概念相似度计算软件和概念相关场计算软件。5.知网的应用方法举例(1)概念相似度的计算。(2)中文文本的分类在《基于知网的词汇语义相似度计算》,《一个基于概念的中文文本分类模型》这两篇文章中详细的讲述了这两种应用算法。6.知网的接口知网发行2000版的时候,接口是开放的。但是现在发展到2008版,知网的接口应用部分需要购买才能使用了,大约要花费几万块。具体参见wwkeenage/html/c_index。7.知网与WordNet的关系总的来说,WordNet在一开始对概念定义...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?