基于自然语言Python的长文本比较研究

基于自然语言Python的长文本比较研究姜安印冯龙飞摘要:文本比较作为人工智能的重要应用,在语言分析、比较研究乃至学术诚信等方面有着广泛应用。文章以中国古代具有重要经济学价值的《管子》和西方古典主义经济学重要著作《国富论》作为比较范本,借助Python语言及相关模块,以较高的效率和精度实现了长文本比较。研究发现,通过人工智能自然语言处理语言及技术,能实现对经济学长文本比较研究,这一方法在未来还可以探索应用到其它社会科学领域。关键词:人工智能;自然语言处理;文本比较;Python;国富论;管子:TP18;F01:ADOI:10.11968/tsyqb.1003-6938.2018026ResearchofCo-termAnalysisofLongTextComparisonbasedonPython——CaseStudyoftheEconomicThoughtsinWealthoftheNationsandGuanziAbstractTextcomparisonbasedoninformationtechnologybecomesaveryimportanttoolinnowadaysacademicresearchaslinguisticanalysis,academicthoughtsandacademicintegrityexamination.ThispaperfocusedonthelongtextcomparisonwiththeapproachofCo-termAnalysisonPythonandusedtheeconomicthoughtscomparisonbetweenWealthoftheNationsandGuanZitoexplorethewaytodofuturethoughtscomparisonineconomicandothersocialsciencewithbetterefficiencyandaccuracy.Keywordsartificialintelligence;NaturalLanguageProcess(NLP);textcomparison;Python;WealthoftheNations;GuanZi文本比较是指通过对相似范畴和内容的文章或书籍进行对比,研究其文字、观点和思想的异同,从而实现言语特征分析、学术思想比较乃至学术诚信检验等多种目的。随着信息技术和互联网技术的发展,基于计算机的文本比较特别是长文本比较在现代社会科学中有了越来越广泛的应用。在实际应用中,通过借助Python等编程语言,运用jieba分词模块进行文本比较,可以有效的提高信息筛选和对比的效率和精度,相比其他方法具有较大优势。在经济学中,以文本比较为重要手段的经济思想比较是制度经济学和经济史研究的常用方法,特别是东西经济学思想比较在研究制度变迁、社会变化、政策效果等方面具有重要意义。本文试图借助Python语言对《管子》和《国富论》两书进行比较,探讨两书之间的思想异同,同时对如何利用计算机技术进行未来的经济学和其他社会科学思想的比较研究进行了探索。1文献综述1.1文本比较方法研究传统上,文本比较主要采用通过对不同文本的阅读和统计分析,对表述、内容、主旨进行手动整理和对比,针对文章的某一角度或某一内容进行比较来得出结论。由于文本比较涉及大量信息,而传统手工比较效率太低,往往需要利用计算机高速计算、海量处理、自动迭代的特点进行数据分析。作为抽取分析文本的有效工具,文本分析工具应运而生[1]。IBM计算机科学家HansPeterLuhn[2]研究了词频统计在文本比较中的应用,在20世纪中叶创造了KWIC(KeyWordsInContext,文本关键词)这一分析方法和工具,对计算机技术用于文本比较起到了开创性作用。经过几十年发展,计算机文本比较形成了两种模式,一方面是KHCoder、WordStat和WordSmithTools[3]等软件的分析方法,特点是使用门槛低便于操作,但也存在难以满足定制化需求;另一方面是基于C、C++、Python、Java、PHP等编程工具的分析方法,该方法需要一定的编程基础,但是具有较高的灵活性,可以满足各种定制化需求。如本文选取的基于Python的jieba模块[4],以Trie树结构[5]为原理,用实现高效的词图扫描将所有可能成词情况构成有向无环图(DAG),并以动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词则采用HMM模型用Viterbi算法[6]进行切分。通过这一方法进行文本分析,效率更高,分词结果也更为准确。1.2文本比较实例研究通过对近十年文本比较研究的实例梳理总结,发现文本比较主要应用于同一著作不同版本的研究和相似内容著作间的研究两类。(1)对同一著作的不同译本或版本的比较主要集中在文学著作和历史文献。①文学方面,有学者对不同版本的《琵琶记》[7]《庐山恋》[8],不同英译本的《红楼梦》[9]《乡愁》[10]进行了比较,还有学者通過赫胥黎《...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?