网络教育资源的获取网络教育资源的获取2011年11月03日文章编号:167121114(2009)0120077204网络教育资源Web挖掘研究收稿日期:2008202220基金项目:天津农学院教育教学研究与改革项目(B206203)第一作者:何玉香(1964—),女,副教授,主要从事计算机控制研究.E2mail:heyuxiang@tjau.edu.cn何玉香,曹丽颖,宋志恒(天津农学院计算机系,天津300384)摘要:针对网络教育资源建设中存在的问题,着重对网络教育资源的获取、分类和标准化描述模型进行了研究.在分析Web挖掘技术和任务分类的基础上,提出了网络教育资源的Web文本挖掘、模型及其相关算法,将数据挖掘技术应用到网络教育领域,有助于在网络上获取高品质的网络教育资源,一定程度上解决了网络教育资源获取缺乏智能的问题.关键词:网络教育资源;Web文本挖掘;模型中图分类号:TP393.09文献标识码:AOnWebminingofnetworkeducationresourceHEYuxiang,CAOLiying,SONGZhiheng(DepartmentofComputer,TianjinAgriculturalUniversity,Tianjin300384,China)Abstract:Aimingattheproblemsintheconstructionofnetworkeducationresource,theacquirement,theclassifica2tionandthestandardizationdescriptionmodeloftheresourcearefocusedon.Basedontheanalysesofthetechnolo2gyandclassificationofWebmining,theWebtextminingmodelfornetworkeducationresourceandtherelevantal2gorithmsareproposed.Applyingdataminingtonetworkeducationishelpfultogaineducationresourceofhighqual2ity,andovercomesthelackofintelligencetoacertainextent.Keywords:networkeducationresource;Webtextmining;model1网络教育资源在网络教育中的现状网络教育资源纷繁复杂,包括支持教师教学的多媒体课件;支持某一学科全程学习的网络课件;支持学生进行电子作品创作的各种素材资源库;用于学生自测的试题库等,大量地存在于各类网站上,资源相当丰富.网络教育资源作为网络教育建设的一个重要组成部分,突破了传统教育资源在人员、地域、时空上的多重限制,提供了大量、全面、开放的资源,为网络教育的成功提供了必要保障[1].目前,我国网络教育资源的建设和分布存在多方面的问题,这些问题成为严重困扰我国网络教育继续发展的瓶颈:1)网络教育资源内容凌乱,大量低水平课件重复开发.科研开题时,经常会发现一个课件已经被某学校做过了,而其他某些学校又在重复做,简言之,根据各自需要进行重复开发,浪费了大量人力和物力.2)获取准确的教育信息困难,网络资源缺乏智能.大量的网络教育资源由于缺乏对自身的描述,所以,很难在现有网络建设的基础上,直接开发为智能型资源,即使是有强大的搜索引擎,也不能够准确定位所需的网络教育资源.3)网络教育资源缺乏统一的标准.网络教育资源在不同领域的术语和描述习惯用法不同,所以,需要对网络教育资源进行规范化的统一描述,使其具有更好的共享性和可重用性.数据挖掘是信息技术演化的结果,是从大量数据中提取或“挖掘”知识.Web挖掘是使用数据挖掘技术在Web文档和服务中自动地发掘、提取有用的信息,是一种全新的用于获取网络数据的方式.基于Web的数据挖掘可以提供比Web搜索更多的帮助,网页上丰富的超级链接包含了大量人类潜在的注释,可以用来推断内容的相关性,因此,对于从纷繁的网络教育资源中,应用Web挖掘技术获取有用第29卷第1期2009年1月天津师范大学学报(自然科学版)JournalofTianjinNormalUniversity(NaturalScienceEdition)Vol.29No.1Jan.2009的信息具有重要意义.2网络教育资源的Web文本挖掘Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息论学等多个学科领域.本研究对Web挖掘作如下定义:Web挖掘是指从大量Web文件的集合C中发现隐含模式p.如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映像[2]ξ:Cvp.2.1Web文本挖掘分类Web上信息的多样性决定了Web挖掘任务的多元化.按照处理对象的不同,将Web挖掘分为三大类:Web内容挖掘、Web结构挖掘和Web使用挖掘,如图1所示.图1Web挖掘的分类1)Web内容挖掘:从Web文件的内容信息中挖掘出知识,用以帮助或改善信息的查找或过滤.Web内容挖掘又分为对文本文件(包括text、HT2ML等格式)...