自由标签系统中标签的层次关系提取方法

小型微型计算机系统JournalofChineseComputerSystems2010年2月第2期Vol131No.22010自由标签系统中标签的层次关系提取方法刘磊,吴锡(吉林大学计算机科学与技术学院,吉林长春130012)E2mail:liulei@jlu.edu.cn摘要:在自由标签系统中,标签之间没有显式的表示出层次关系,但其内在却隐含着某个标签是其他一些标签的子标签这样的层次关系.提出一种简单高效的、基于概率统计的方法,用OWL本体中的类来表示标签,并从中提取出类的层次关系.实验表明,本方法的提取结果在正确率、召回率上完全满足实际需要,算法执行效率高,非常符合信息飞速增长的互联网的需要.:TP311文献标识码:A文章编号:100021220(2010)0220302205MethodforExtractingTagHierarchiesfromFolksonomyLIULei,WUXi(CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012,China)Abstract:Infolksonomy,thereisnoexplicithierarchybetweentags,howeverthereimplicitlyexistssuchhierarchicalrelationshipthatonetagisasub2tagofothers.Thispaperpresentsasimplebutremarkablyefficientalgorithmforderivinghierarchicaltaxonomyoftagsfromfolksonomybasedonstatistics,inwhichtag,infloksonomy,isrepresentedbyOWLclass.Experimentsshowthatthisalgorithmhasahighrecallrateandagreatprecisioninadditiontoaremarkableefficiency.Itfitstheneedoninternetwhereinformationgrowsrapidly.是它的分类是非层次的[3],无法表示上面所说的层次关系.本文提出了一种解决以上各个分类系统的缺点,取其长处,以更好的为数据分析服务的方法.该方法是基于概率统计的,能够很好的挖掘出标签与标签之间潜在层次包含关系,然后用一种近似贪心算法的高效算法将标签间的二元关系构建成一个完整的层次图,最终生成OWL本体.1引言元数据被大家最为接受的抽象的定义为:关于数据的数据(dataaboutdata)[1],是一个高度结构化的、提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述.在互联网中常被用来对数据进行分类.2005年,自由标签系统(Folksonomy)[1,2]也随着web2.0兴起而迅速流行起来.Folksonomy也被叫做协作标签系统,是用关键词将特定内容分类标记的方法,其中起标记作用的关键词被叫做标签(Tag)[123].与此同时,语义网[4]技术也越来越受到人们关注.其中,本体[4]的研究是语义网技术的一个热点,涌现出了很多本体的表示框架,其中最有影响力的是W3C制定的RDFS[5]和OWL[6].同样,在本体中的一个最基本概念:类(class)[527]也是在对事物进行分类.分类可以帮助计算内容的相似度,对搜索引擎分析互联网内容的相关度上能起到很大的作用,特别是带有层次等级的分类.OWL中有很好的表示层次关系的方法:owl:subClassOf[7]可以用来表示一个类是另一个类的子类,这样就有效的表示了两个类的层次关系.虽然分类有种种好处,但是,传统的由领域专家来定义类别的方法虽然比较准确,但已经无法满足现在飞速发展的互联网的需求[1].幸好自有标签系统很好的解决了这一问题,并在实践中被人们所接受.但是,自有标签系统的最大缺陷就2相关研究在与标签相关的研究方面,已经有一些人正在进行研究,如:Hak2LaeKim等人提出了一种在社会语义标签云中(SCOT)计算标签出现频率的方法[8].其中在挖掘标签间层次关系做得比较好的是PatrickSchmitz进行的从Flickr的Tags生成本体的研究[9]和PaulHeymann的基于相似度的计算标签层次算法[10].下面就对这两种算法进行简单介绍.2.1从Flickr的标签中推导出本体的方法该方法是基于包含模型的本体生成方法[9].先是对Flickr中每组标签进行词频统计,并记录下标签与标签之间同时出现频率,并基于父类包含子类的思想,将所有标签之间的关系表示出来.最后通过剪掉如下类之间的关系,以建立类的层次关系:ifA→B,A→C,B→C收稿日期:2008210215基金项目:国家自然科学基金项目(60873044)资助;高等学校博士学科点专项科研基金项目(20060183044)资助.作者简介:刘磊,男,1960年生,教授,博士生导师,研究方向为软件形式化,语义网及本体工程;吴锡,男,1983年生,硕士研究生thendeleteA→B,enhanceB→C,A→B→C图1是该方法的一个测试用例的结果.是关于"圣...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?