统计语言模型分析

下载本文档

ID 921913
格式 doc
大小 42 KB
约3页
收藏
点赞(0)
海报
举报

/ 3

下载本文档

统计语言模型分析郭雷(南京工业职业技术学院计算机与软件学院，江苏南京210046)摘要：语言模型是实现自然语言处理的关键所在，在分析人类语音理解过程的基础上，介绍了统计语言模型，讨论总结了统计语言模型目前所面临的问题，为进一步提高统计语言模型能力提供了思路。关键词：自然语言处理，语言模型，统计语言模型中图分类号：G424自然语言是人类进行推理和交流的桥梁。由于语言在智能活动中具冇举足轻重的作用，自然语言处理(NLP,NaturalLanguageProcessing)成为人T•智能领域和文字信息处理领域的一个热点研究方向。H然语言处理的研究试图利用计算机來处理白然语言并且能够接近英至达到人的智*能水平。语言模型是口然语言的数学模型，它试图描述、记录并使用口然语言内在规律。计算机主要依据语言模型对口然语言进行理解，研究和开发具有强大语言描述能力的语言模型对口然语言理解的各个应用领域,如文字识別、语音识别、机器翻译、中文键盘输入法、文字校对和全文检索等领域有着重要的指导意义和实用价值。语言模型就其研究方法而言，一般分为两类一类是基于语言学知识的规则文法；另一类是基于统计的语言模型。前者是根据语言学家总结的语言学知识，包括词法、句法、语义和语用知识，建立语言的规则文法。但这种方法儿乎不可能完成对大规模真实文本的处理,只能处理受限域文本。目前以语料库为基础的统计语言建模方法成为主流，它通过对语料库进行深层加工、统计和学习，获取大规模真实语料中的语言知识。本文在分析人类语音理解过程的基础上，讨论统计语言模型的特点，分析其存在的不足，为进一步提高统计语言模型能力提供了思路。人理解语音的过程分析仔细分析人们从听到语音到最终理解的过程，我们可以将其分成两个阶段。第一阶段是将听到的语音中的每个字的发音与我们大脑中存储字相匹配，寻找发音相同的。这个可匹配的结果往往很多。在我们人脑实际处理时，往往不是仅仅对单个字进行发音匹配，而是按照词为单位进行匹配。匹配的过程是通过类比的手段来实现，或者说其纯粹是个非语义处理过程。第二个阶段，为了进一步确定就是语音对应是什么字或词，必须借助于一些其它因索，如是否满足语法规则，是否满足语义上的逻辑关系，是否与当前语境相匹配等等。该阶段的处理过程则与语义处理密不可分。此外二者间还相互影响，相互作用。下面我们用拼音串衣示人听到的语音，來演示该过程。箭头所连接起來的衣示一个第二阶段的匹配结果。语音Gaodengzhiyejiaoyuxunmengfazhan第一阶段高糕灯等知职业也叫教与育逊迅梦猛法发展战第高、灯知J业、叫与逊梦法J展阶段糕、等—►职也\'教—FT•迅—*猛-------------►战统计语言模型以语料库为基础的统计语言建模方法通过对语料库进行深层加工、统计利学习，获取大规模真实语料中的语言知识。N-gram模型、隐马尔可夫模型和随机上下文无关文法是这种模型的代表。其中N—gram模型以其有效性和易于计算性在语音识别〈机器翻译和信息检索等领域得到广泛的应用，并取得了较大的成功。设Wi是文本中的任虑一个词，如果己知它在该文木中的前两个词U3呻,便可以用条件概率P（Wi|昭2WI）來预测⑷出现的概率。这就是统计语言模型的概念。一般來说，如果用变量W代表文木中一个任意的词序列，它山顺序排列的n个词纠•成，即W=w.w2...wfl,则统计语言模型就是该词序列W在文本中出现的概率P（W）。利用概率的乘积公式，P（W）可展开为：P（W）=P（W|）P（W2IW］）P（W3I如严2）・・.戶（叫丨叫叫…叫-］）为了预测词呵的出现概率，必须知道它前面所有词的出现概率。从计算上來看，这种方法太复杂了。假设任意一个词创的出现概率只同它前而的两个词冇关，问题就可以得到极人的简化。这时的语言模型叫做三元模型（tri-gram）:P（W）=P（VV,）P（W2lWjfp（叱丨样2叱-1）i=3-•般來说，N元模型就是假设当前词的出现概率只同它前面的N-1个词冇关。重要的是这些概率参数都是可以通过大规模语料库來计算的。比如三元概率有P（叱I叱_2出_］）UCOUM（叱・_2叱_|叱）/COW"（叱_2叱-1）式中countC..）表示一个特定词序列在整个语料库中出现的累计次数。统计语言模型分析...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。