关联数据发布流程与关键问题研究-以科技文献科学数据发布为例_2

关联数据发布流程与关键问题研究以科技文献、科学数据发布为例3.3RDF词表的发布在发布关联数据的同时,除了采用通用的RDF词表之外,往往还需要创建新的词汇(包括类名和属性名),根据关联数据的四项基本原则,这些RDF词表也需要发布成关联数据。D2RQ默认会发布用户新建的RDF词表,一个RDF词汇会具有如下形式的URI:semweb.csdb..zjlib.proxy.zyproxy.zjlib/flux/vocab/resource/<RDF词汇>在制定RDF词表时,本文建议RDF类名采取首字母大写的约定,如:Station、JoumalIssue等;RDF属性名采取首字母小写的约定,如:author、isPartOf等。如下表示在FLUX-SW中台站Station类的RDF描述:flux:Stationardfs:Class;rdfs:comment"representsastation";rdfs:label"station"@en,"观测台站"@zh.其对应的映射文件代码为:map:stationad2rq:ClassMap;d2rq:dataStoragemap:database;---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---d2rq:uriPattern"station/@@station.S_CODE|urlify@@";d2rq:classflux:Station;d2rq:classDefinitionLabel"station"@en;d2rq:classDefinitionComment"representsastation";d2rq:classDefinitionLabel"观测台站"@zh;3.4其他D2RServer发布建议在采用D2RServer发布关系型记录的时候,为了简化工作量并提高发布数据的质量,可遵循如下建议:①不要采用空白节点(blanknode)。尽管D2R配置文件提供了d2rq:bNodeIdColumns用以指定哪些列可以用来映射成空白节点,但建议避免使用空白节点。由于空白节点的局域性,会造成跨数据集的空白节点无法关联,同时在多数据集的数据合并(如:溯源信息的回溯)时,空白节点也会带来其他问题。②尽量做好关系型数据库的前期设计。在执行generate-mapping工具之前,建议构建好数据库中的主外键关联关系,这样generate-mapping会在生成映射文件的过程中自动将这种关联映射成RDF链接的生成规则。另外,D2RServer对数据库的设计还具有一些额外的要求,如:D2RServer不允许用于生成URI的主键值中包含下划线等特殊字符,这时候往往需要通过新增一个自动增长的列作为主键来解决。③指定非文本属性的数据类型。generatemapping通常会忽略数据库的列值类型,而统一将各种列值视为文本类型处理,这样发布出来的数据在SPARQL查询时则无法支持数值的比较和运算。因此,建议采用d2rq:datatype来指定数值、日期属性的类型。④适当进行实体表的拆分与合并。由于数据组织的灵活性,原始的数据模型与RDF数据模型往往会存在着不匹配,如在CSCD中,论文的期刊、卷信息与论文元数据的原始记录存储在一张表中。另外一个相反的例子,分类类目(skos:Concept对象)的信息会分别存储在不同的表(学科分类表、中图分类代码表)里,这时候又需要合并来自多张表的数据。针对这种情况,建议充分进行---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---数据建模,不要拘泥于原有物理表的存储结构,而应该根据RDF实体之间的关系重新组织,并通过映射规则完成这种转换。4结语本文结合中国科学引文数据库和中国生态系统研究网络通量数据的发布,提出了关联数据发布流程中的六个关键步骤,并结合多语种问题、值词表的发布、RDF词表的发布等关键问题进行了详细的分析,最后给出利用D2RServer发布数据的建议。由于关联数据还没有引起国内数据库领域足够的关注,关联数据在国内尚没有形成有影响力的或者成熟的应用,基本处于起步探索阶段,因此本研究具有较强的实践意义。当然,在关联数据的发布过程中,也暴露出D2RQ的一些不足,如:在跨越多张表进行SPARQL关联查询的时候,D2RServer的性能会比较慢;HTML发布界面过于简单,不够美观,缺乏分页控制,用户体验不够友好;无法在映射之前进行有效的数据转换处理等。再以科学数据为例,由于其内容除了关系型记录外,大部分体现为数据文件,因此除了D2RQ之外还需要寻找一种高效的文件系统RDF映射框架,同时还应考虑到两者之间的无缝集成。此外,考虑到D2RQ仅仅用以显式的映射,因此还需要采取类似于Silk[31]等关联发现框架,来发现不同实体之间的隐性关联...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?