大数据复习题

1、简述大数据处理流程。14数据采集大数据导入和预处理大数据分析和计算大数据的挖掘应用2、请给出大数据的来源以及各自的特点?3、网络爬虫常用的搜索策略有哪些?55深度优先遍历策略广度优先遍历策略非完全PageRank策略OCIP策略大站优先策略最佳优先策略反向链接数策略4、请说明大数据采集的原始数据中可能存在的问题。69数据不一致数据内涵出现不一致,超出正常范围、逻辑上不合理或者相互矛盾。数据重复从不同的数据源采集的数据一般存在大量的重复数据。数据残缺不完整感兴趣的属性没有值,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。错误或异常数据中存在明显的错误或偏离期望值的异常,例如学生身高为负数。高维度原始数据往往含有很多维度,也就是咱们所说的列数。比如对于银行数据,通常含有几十个指标或属性。针对这类数据通常需要进行降维处理,即去掉一些不重要的列。5、针对空缺值的大数据清洗,常见的处理方法有哪些?71①对于空缺值的清洗方法应根据空缺值属性的重要程度而采取不同的处理方法,对于某些关键属性更多的是采取忽略元组的做法,所谓元组通常是指描述某种对象的数据,在关系数据库中元组就是行。②对于某些非关键的属性同时缺少值的数据量并不多,可以采取人工填写空缺值,人工填写的值通常是根据业务情况以及上下文估算得到。6、简述Quorum机制的原理。7、简述CAP定理。118在一个分布式系统中,一致性(C)、可用性(A)、分区容忍性(P)三者不可兼得。在同一时间只能满足其中的两个。8、简述IIBase数据库中表的特点。133①数据量大:一个表可以有上亿行、上百万列。②面向列:面向列(族)的存储和权限控制,列(族)独立检索。③稀疏:对于为空的列,并不占用存储空间,表可以设计得非常稀疏。9、HBase分布式部署时主要涉及到哪些组件?这些组件主要功能是什么?①Ilbase客户端②ZooKeeper集群管理③IMaster④IIRegionServer10、HDFS的存储策略是什么?给出这样设计的主要理由。采用以机架感知为基础的数据存放策略,即DataNode复制与放置策略。兼顾数据安全和网路传输的开销。11、简述SPARK处理流程。12、大数据安全技术框架主要包括那几部分?边界安全:主要包含网络安全和身份认证。访问控制和授权:通过对用户的授权实现对数据、资源和服务的访问管理及权限控制。数据保护:通过数据加密和脱敏两种主要方式从数据层面保护敏感信息不被泄露。审计和监控:实时地监控和审计可管理数据安全合规性和安全回溯、安全取证等。13、何谓数据脱敏?请举出一些常用的大数据脱敏的技术方法数据脱敏(DataMasking)又称数据漂白、数据去隐私化或数据变形,数据脱敏是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在不可控环境中使用的问题。替换以虚构的数据代替真实的数据,如建立一较大的字典数据表,对每一真实值记录产生随机因子,对原始数据内容进行字典表内容的替换。这种方法得到的数据与真实数据非常相似;无效化以特殊符号代替真值或真值的一部分,如遮盖身份证号码前6-14位。乱序对敏感数据列的值进行重新随机分布,混淆原有值和其他字段的联系这种方法不影响原有数据的统计特性,如该列总金额与原数据无异;平均取值:针对数值型数据,首先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。通常用于成本表、工资表等场合;反关联:查找可能由某些字段推断出另一敏感字段的映射,并对这些字段进行脱敏,如从出生日期可推断出身份证号、性别、地区的场景;偏移:通过随机移位改变数字数据;14、DSMM模型具有哪些维度?分为哪几个能力等级?①数据生命周期维度②数据安全能力维度③能力成熟度等级维度五个成熟度等级非正式执行(1级:随机、被动的安全过程)计划跟踪(2级:主动、非正式的安全过程)安全可控(3级:正式的规范的安全过程)量化控制(4级:安全过程可控)持续改进(5级:安全过程可调整)15、简述Base理论的核心思想。118即使无法做到强一致性,但每个应用都可以根据自身的业务特点,采用适当的方式来使系统达到...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?