中文问句与RDF三元组映射方法研究

中文问句与RDF三元组映射方法研究*许德山1,2张智雄1赵妍3(1中国科学院国家科学图书馆,北京100190)(2中国科学院研究生院,北京100049)(3郑州航空工业管理学院计算机科学与应用系,郑州450015)[摘要]主要探索中文问句与RDF三元组的转换方法。文章首先对中文问句的特点进行了分析,然后结合RDF(S)模型的优势,探索了RDF三元组与问句语义的对应关系,进而提出了直接映射和间接映射两种映射方式。该方法只需做浅层的句法分析,将获取的限定成分映射为三元组内部的语义标签,从而降低了句法分析和三元组组配的难度。最后分析了映射方法中存在的问题并提出未来工作的重点。[关键词]问题分类;RDF模型映射;三元组映射[分类号]TP391AResearchonChineseInterrogativeSentencesandRDFTriplesMappingMethodsDeshanXu1,2ZhixiongZhang1YanZhao3(1TheNationalScienceLibrary,ChineseAcademyofSciences,Beijing100190)(2GraduateUniversityofChineseAcademyofSciences,Beijing100049)(3DepartmentofcomputerScienceandApplication,ZhenzhouCollegeofAeronauticalIndustryManagement,Zhengzhou450015)[Abstract]ThispaperintroducestwomappingmethodsbetweenChineseinterrogativesentencesandRDFtriples.WefirstlyanalyzethecharacteristicsoftheChinesequestionsanddiscusstherelationshipbetweentheRDFtriplesandthequestionsaccordingtotheadvantagesofRDF(S)model.Furthermore,weproposedtwomappingmethods-directandindirect.Onlyshallowparsingneedstobedoneduringprocessing,andthentherestrictivechunksaremappedintosemanticlabelsinsidetriple,sothemethodsmakethesyntacticparsingandthetriplesassemblingeaser.Finally,weanalyzetheopenissueinthemethodsandshowourexpectationinthefuture.[Keyword]QuestionClassification;RDFModelMapping;TripleMapping引言国际万维网联盟(W3C)也推出了面向语义检索的标准查询语言SPARQL,用来完成对RDF本体的各种检索。但SPARQL的使用并不简单,需要了解本体知识库的组织方式,并学会用SPARQL的语法来表达自己的查询意图,这就为普通用户带来了不便。为此本文试图探索一种映射方法:用户只需用自然语言来表达自己的查询意图,系统自动完成问题到SPARQL的转换和概念推理,然后返回查询结果。1中文问句的特征分析本文的研究主要针对由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的标准问句进行分析,这类问句结构完整,意思表达明确,容易进行形式化处理。具体来看主要存在下列特征。*本文受“十一五”科技支撑计划课题“网络科技信息监测与评价”(2006BAH03B05)资助。1①句子短小,主旨明确。通常根据问句的疑问特点将其分为是非问句,选择问句,特指问句[1]。其中特指问句使用的比例最大,也最有实际意义。特指问句的特点是对特定的疑问对象进行发问,以获取与此对象相关的信息,涉及的答案往往是与人、地点、时间、数量、事情、机构等命名实体有关的事实、列举、定义等问题。②具有特定的疑问词。疑问词对所问内容的类型及其范围具有很强的限定作用。如“哪儿”、“哪里”、“何处”等往往询问地点或方位,“谁”、“何人”、“哪个人”等询问特定的某个人。另外有一些特定的疑问词,具有很强的构词能力,通过与其它的名词结合能够构成疑问短语,可以对特定的内容进行提问,如“什么”、“哪”、“何”等。2问句成分提取策略问句的分析与映射是语义检索系统工作流程中一个重要的环节,通常需要完成以下几部分工作:问句分词和词性标注、确定问题的类型、确定问题的焦点、确定答案的类型、关键成分提取、关键词扩展、语义三元组构建、SPARQL表达式生成。为了对问句的词汇特征进行分析和统计,本文使用了哈工大信息检索实验室提供的问题集合[2],使用ICTCLAS[3]对训练集合中的5000条问句进行分词和词性标注处理,并按各种词性出现频率的降序排列,其前十位的次序如下表所示。图1特定词性的词频统计分析从上面的统计中可以看出,中文问句中频次最高的是名词(n)、代词(r)、动词(v)、形容词(a),所以对问句关键词的提取主要是以上述词...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?