北京工业大学-数据挖掘总18页

精选优质文档-----倾情为你奉上数据挖掘老师范围最简知识点第一章数据仓库:是一个面向主题的,集成的,时变的,非易失的的数据集合数据挖掘:就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘分析方法:分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化数据挖掘的过程:第二章专心---专注---专业精选优质文档-----倾情为你奉上数据属性:是一个数据字段,表示数据对象的一个特征属性类别:标称的二元的序数的数值的数据的中心趋势度量方法:均值、中位数、众数数据相似性和异度量方法:欧式距离:它是在m维空间中两个点之间的真实距离专心---专注---专业精选优质文档-----倾情为你奉上曼哈顿距离:切比雪夫距离:专心---专注---专业精选优质文档-----倾情为你奉上例子上下为一题闵可夫斯基距离:专心---专注---专业精选优质文档-----倾情为你奉上第三章数据预处理:是指在主要的处理以前对数据进行的一些处理。比如缺项,噪声(工资=-100),不匹配(年龄和出生日期不匹配),冗余等等。原因:不完备:丢失属性,缺少某个感兴趣的属性,或仅含累计值。噪声:包含错误点和离群点不一致:存在代码或者名称的分歧专心---专注---专业精选优质文档-----倾情为你奉上数据预处理中的主要任务:数据清理、数据集成、数据归纳、数据变换处理缺失值数据的方法:忽略:删除带有缺失值的属性或者案例、适用于错误率低的数据手工填充缺失值自动填充缺失值(根据推理得到)离群点分析的方法:通过如聚类来检测离群点聚类将类似的值组织成群或“簇”,落在簇集合之外的值被视为离群点专心---专注---专业精选优质文档-----倾情为你奉上如何对数据进行分箱:分箱方法通过考察数据的“临近”来光滑有序数据值箱均值光滑箱中位数光滑箱边界光滑。第四章数据仓库与OLAP技术数据仓库概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程数据仓库特点:面向主题的、集成的、随时间而变化的(反映历史变化)、不容易丢失(相对稳定)数据仓库的组成:数据库数据抽取工具(ETL)元数据专心---专注---专业精选优质文档-----倾情为你奉上访问工具数据集市数据仓库管理工具信息发布系统数据仓库的体系结构:三层数据仓库模型专心---专注---专业精选优质文档-----倾情为你奉上联系分析处理OLAP:概念:即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息OLAP特点:快速性:快速反应能力可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析多维性:系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。第五章关联规则基本概念频繁模式:是频繁地出现在数据集中的模式(如项集、子序列或子结构)频繁集项:根据特征提取器得到的特征向量给一个被测对象附一个类别标记。专心---专注---专业精选优质文档-----倾情为你奉上支持度(support)支持度:{X,Y}同时出现的概率,例如:{尿布,啤酒}同时出现的概率{尿布,啤酒}的支持度=800/10000=0.08{尿布,面包}的支持度=100/10000=0.01**{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分置信度(confidence)置信度:购买X的人,同时购买Y的概率,例如:购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度(尿布->啤酒)的置信度=800/1000=0.8专心---专注---专业精选优质文档-----倾情为你奉上(啤酒->尿布)的置信度=800/2000=0.4支持度与置信度规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性Apriori算法:原理:Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L1。L1用...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?