《CNKI图片知识库》Beta系列产品文档之数据标准

《CNKI学术图片知识库》系列产品文档之数据标准中国学术期刊(光盘版)电子杂志社清华同方知网(北京)技术有限公司2011年8月23日一、术语和定义1、图片元数据CNKI学术图片知识库所包含用来表述图片信息的15个数据项,包括图片中文标题、图片英文标题、图片说明、图片关键词、图词、一级分类、二级分类、图片尺寸、图片大小、图片清晰度。2、抽取字段对于所有图片元数据项中,由程序从原文献中抽取出来的信息为抽取字段,例如图片标题等。3、标引字段对于所有图片元数据项中,由程序或人工标引,用于进一步描述图片信息的字段,例如图片关键词等。4、抽取错误率某抽取字段,数据项抽取错误的数据项数量与该数据项总数量的比率。抽取项错误率=(抽取错误的数据项数量/数据项数量)×100%抽取错误包括文字、范围、数据计算、完整性等方面的错误,只要与原文不相符合的信息即视为抽取错误。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4张同文图片,则计为4项。5、抽取信息有效率某抽取字段,信息有效的数据项与该数据项总数量的比率。抽取信息有效率=(抽取信息有效的数据项数量/数据项数量)×100%有些抽取出来的数据项,虽然抽取正确,但是未能很好地反映图片内容,或图片内容本身质量不好,对于用户来说价值不大,可以定义为该数据项信息有效性较低,对这种数据项进行统计,可计算该数据项的信息有效率。6、标引正确率某标引字段,数据项标引正确的数据项数量和数据项数量的比率。标引错误率=(标引错误的数据项数量/数据项数量)×100%标引数据项项基本反映图片主题,无原则性错误,则计为标引正确。数据项内容为单值的,计为一项;数据项内容为多值的,则按值的数量计算项数,例如,一张图片有4个关键词,则计为4项。7、标引一致度某标引字段,数据项标引一致的数据项数量与数据项数量的比率。标引一致度=(元数据标引一致的数据项数量/数据项数量)×100%标引一致度反映同类别图片标引一致的程度。同类别的图片,被标引的关键词、类别等数据项应保持一致。二、数据项及其定义《CNKI学术图片知识库》共包含三类数据字段:1、图片基本信息字段图片ID、图片中文标题、图片英文标题、图片说明、图片关键词、图词、一级分类、二级分类、图片页码、图片地址、图片尺寸、图片大小、图片清晰度;2、图片关系信息字段同文图片ID、语义相关图片ID、读者推荐图片ID、参考文献图片ID、引证文献图片ID、视觉相似图片ID;3、文献信息关联字段篇名、作者、中文刊名、拼音刊名、年、期、文件名、页、页数、出版日期、表名、机构、中文关键词、中文摘要、英文篇名、英文作者、英文摘要、英文关键词、专题代码、子栏目代码、专题名称、专题子栏目代码、下载频次、被引频次、文献标识码、期刊标识码、标识码、作者代码、机构代码;图片基本信息字段和图片关系信息字段又可按数据划分为抽取字段和标引字段:1、抽取字段图片中文标题、图片英文标题、图片说明、图片尺寸、图片大小、图片页码、同文图片ID、参考文献图片ID、引证文献图片ID2、标引字段图片ID、一级分类、二级分类、图词、图片地址、语义相关图片ID、视觉相似图片ID、图片关键词、图片清晰度各字段定义如下表所示:类别元素名称字段名称标签定义图片基本信息图片ID图片IDID人工标引的图片地址。标题图片中文标题图片中文标题图片特征的中文描述。图片英文标题图片英文标题图片特征的英文描述。图片说明图片说明图片说明对图片内容的说明性描述。图片关键词图片关键词图片关键词描述图片内容的一个或多个规范词。图词图词图词描述图片视觉基本特征的关键词。分类一级分类一级分类将图片按特征分为若干类,描述图片最基本特征的类别,即为一级分类。例如:曲线图中的曲线就是图片的最基本特征。二级分类二级分类一级分类的子类别。例如:心电图即为曲线图的二级分类。图片尺寸图片尺寸图片尺寸图片的横宽像素描述。图片大小图片大小图片大小图片所占的面积大小。图片清晰度图片清晰度图片清晰度图片清晰度等级。图片页码图片页码图片页码图片在文献中所处的位置。图片地址图片...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?