合肥工业大学自然语言理解实验报告

计算机与信息学院自然语言理解实验报告专业班级信息安全13-1学生姓名及学号马骏2013211869课程教学班号任课教师谷雨实验指导教师谷雨实验地点逸夫楼2015~2016学年第一学期实验1统计词频一、实验目的掌握中文词语的标记方法二、实验要求统计材料中词语的出现次数及频率三、实验内容将形如如下格式的文章统计词频19980101-01-001-001/m迈向/vt充满/vt希望/n的/ud新/a世纪/n——/wp一九九八年/t新年/t讲话/n(/wkz附/vt图片/n1/m张/qe)/wky19980101-01-001-002/m中共中央/nt总书记/n、/wu国家/n主席/n江/nrf泽民/nrg19980101-01-001-003/m(/wkz一九九七年/t十二月/t三十一日/t)/wky19980101-01-001-004/m12月/t31日/t,/wd中共中央/nt总书记/n、/wu国家/n主席/n江/nrf泽民/nrg发表/vt1998年/t新年/t讲话/n《/wkz迈向/vt充满/vt希望/n的/ud新/a世纪/n》/wky。/wj(/wkz新华社/nt记者/n兰/nrf红光/nrg摄/Vg)/wky19980101-01-001-005/m同胞/n们/k、/wu朋友/n们/k、/wu女士/n们/k、/wu先生/n们/k:/wm四、实验步骤五、实验总结通过实验我了解了中文词语的标记方法实验2前向最大匹配四、实验目的掌握fmm算法并编程完成五、实验要求基于已统计的词频来实现fmm算法六、实验内容FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束。四、实验步骤通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪五、实验总结通过实验我了解了fmm算法的编程过程实验3后向最大匹配七、实验目的掌握bmm算法并编程完成八、实验要求基于已统计的词频来实现bmm算法九、实验内容BMM算法的最简单思想是使用贪心算法从后向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子开始字。四、实验步骤通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪虽然结果和fmm一样,但实现的过程显然是不一样的五、实验总结通过实验我了解了bmm算法的编程过程实验4基于一阶马尔科夫链的分词算法十、实验目的掌握基于马尔科夫链的中文分词方法十一、实验要求编程实现基于一阶马尔科夫链的分词算法十二、实验内容马尔科夫(Markov)过程的定义一般地,考虑只取有限个(或可数个)值的随机过程{Xn=1.2⋯}:若Xn=i,就说过程在n时刻处于i状态,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率P为一定值,即Vn≥1有:这样的随机过程称为Markov链(给定过去的状态X1..,Xn-1和现在的状态Xn将来的状态Xn+1的条件分布独立于过去的状态.只依赖于现在的状态——这就是Markov性)。一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵显然.它可被视为一个随机有限状态自动机.其每个状态都代表一个可观察的事件.之间的转换都对应一定的概率对于马尔科夫模型而言.每个状态都是决定性地对应于一个可观察的物理事件.所以其状态的输出是有规律的然而.这种模型限制条件过于严格.在许多实际问题中无法应用于是人们将这种模型加以推广.提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即:观察事件是依存于状态的概率函数.这是在HMM中的一个基本随机过程.另一个随机过程为状态转移随机过程.但这一过程是隐藏着的.不能直接观察到.而只有通过生成观察序列的另外一个概率过程才能间接地观察到对于隐马尔科夫模型的应用.在语音识别领域已经取得了很好的成效.在信息抽取领域的应用也正在不断的尝试和推广中四、实验步骤通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪五、实验总结通过实验我了解了bmm算法的编程过程实验5MFC可视化十三、实验目的完成中文分词系统的设计十四、实验要求利用MFC实现中文分词系统的可视化十五、实验内容通过mfc对fmm,bmm’,hmm算法进行了整合,并可视化。四、实验步骤五、实验总结通过此次实验的学习使我对中文分词有了更深的了解,希望在以后可以学习到更多的自然语言理解的知识。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?