国外Web-Archive项目对我国的启示

国外WebArchive项目对我国的启示——以澳大利亚PANDORA为例闫晓创2012-11-139:38:07来源:《浙江档案》(杭州)2011年10期【英文标题】EnlightenmentofForeignWebArchiveProjecttoChina:WithAustralianPANDORAProjectasanExample【作者简介】闫晓创,中国人民大学信息资源管理学院(北京100872)。【内容提要】分析澳大利亚PANDORA项目的网络信息采集策略、资源保存方式、服务提供、信息检索及技术架构,提出对我国网络信息资源保存在法律环境、战略定位、合作模式等方面的启示。【关键词】WebArchive/PANDORA/网络信息保存目前,网络信息资源已经成为世界上最大的信息资源库,许多网页具有重要的社会、经济等价值;然而由于网页不断更新,其寿命一般较短,因此对网络信息资源进行保存,建立网页档案馆(WebArchive)十分必要和迫切。从国际上来看,网络信息资源保存的研究始于1996年,目前开展了众多的相关项目,其中澳大利亚PANDORA项目是开展较早且至今发展较完善的一个项目;我国在网络信息资源保存方面还未取得太多进展,仅有国家图书馆和北京大学进行了相关的研究。本文通过对PANDORA项目的分析,提出了它对我国网络资源保存的借鉴意义,进一步明确我国档案部门应在其中发挥的作用。一、PANDORA项目分析(一)基本情况1996年,澳大利亚国家图书馆发起了对澳大利亚在线出版物、具有重要文化价值网站开展的长期保存计划,即PANDORA(PreservingandAccessingNetworkedDocumentaryResourcesofAustralia)项目。它是世界上最早的WebArchive项目之一,现在已发展为与其他11个澳大利亚各地的图书馆和文化遗产机构共同合作进行,到目前为止已经较为完善。PANDORA保存的网络资源主要包括:政府的公开出版物、教育机构出版物、会议论文、电子期刊、索引和摘要代理商提供的item、在某主题领域运行三年以上和记载当前重要社会、政治等内容的网站(如选举网站、2000年悉尼奥运会网站)等。截止到2011年6月22日,PANDORA共保存超过240437896条网络资源,提供艺术与人文、商业与经济、电脑与网络、教育、环境、健康、历史与地理、青少年、法律与犯罪学、新闻与媒体、政治与政府、科学与技术、社会与文化、运动与休闲15个主题的网络信息资源[1]。(二)采集策略:选择性采集PANDORA项目是对网络资源进行选择性地搜集,一般情况下对网站资源进行全部采集,有时只会选择一部分,如对于一个较大网站只会采集电子期刊、科技报告等网络出版物。进行选择性采集时,依据指定的相关采集指南,PANDORA项目在采集前会征求所有采集对象所有者的许可,而对外部链接,如果不在采集范围内,或没有征得所有者的许可是不会采集的。由于PANDORA项目包括的12个成员中,除了澳大利亚国家图书馆之外都是地区性的,每个成员所关注的内容不同,采集的内容也不相同,所以每个成员都有各自的选择指南。PANDORA项目对网络连续出版物,进行周期性采集,对专著进行一次性采集。采集的格式主要为常见的15种,占据了收藏的95%,有HTML、JPEG、PDF、TXT等格式。这样在有限的格式范围内可以保障资源最大程度上的统一,更重要的是减少了格式转换的复杂性以及可能出现的各种问题[2]。PANDORA项目对采集到的资源按照澳大利亚国家图书馆的标准进行加工,开发了PANDAS系统,工作流程主要包括:识别、选择和登记主题;征求发布者的许可并存档;制定相应的采集制度;进行采集;对质量控制进行检查;进行归档;对归档的资源组织相关的元数据。PANDORA项目的成员利用PANDAS工作的内容包括:登记归档文件题名;标明出版商的权限;设置采集时间表;保证一个文件的质量和准确性;将文件名进行归档;生成书名款目;链接到出版商的版权声明[3]。由于所有的成员统一采用了PANDAS系统进行质量控制、并且由项目成员对采集到的资源实施严格的审核,通过审核后才能归档,这就保障了PANDORA项目中网络资源的质量。但由于选择性采集具有主观性,并且割裂了网络资源之间的关系,不能完整反映网络信息资源的全貌,并且选择性采集加入了较多的人工干预,因此成本非常高。为了弥补选择性采集的不足之处,从2005年开始PANDORA还进行了三次大规模的采集:...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?