大数据复习题wsd

1、简述大数据处理流程。①数据采集②大数据导入和预处理③大数据分析和计算④大数据的挖掘应用2、请给出大数据的来源以及各自的特点?政府数据企业内部数据互联网数据3、网络爬虫常用的搜索策略有哪些?深度优先遍历策略广度优先遍历策略非完全PageRank策略OCIP策略大站优先策略最佳优先策略反向链接数策略4、请说明大数据采集的原始数据中可能存在的问题。①数据不一致数据内涵出现不一致,超出正常范围、逻辑上不合理或者相互矛盾②数据重复从不同的数据源采集的数据一般存在大量的重复数据。③数据残缺不完整感兴趣的属性没有值,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。④错误或异常数据中存在明显的错误或偏离期望值的异常,例如学生身高为负数。⑤高维度原始数据往往含有很多维度,也就是咱们所说的列数。比如对于银行数据通常含有几十个指标或属性。针对这类数据通常需要进行降维处理,即去掉一些不重要的列。5、针对空缺值的大数据清洗,常见的处理方法有哪些?①对于空缺值的清洗方法应根据空缺值属性的重要程度而采取不同的处理方法,对于某些关键属性更多的是采取忽略元组的做法,所谓元组通常是指描述某种对象的数据,在关系数据库中元组就是行。②对于某些非关键的属性同时缺少值的数据量并不多,可以采取人工填写空缺值,人工填写的值通常是根据业务情况以及上下文估算得到6、简述Quorum机制的原理。假设有N个副本,更新操作在W个副本中更新成功之后,才认为此次更新操作成功。对于读操作而言,至少需要读R个副本才能读到此次更新的数据。W和R必须满足公式:W+R>N7、简述CAP定理。CAP理论的核心思想是任何基于网络的数据共享系统最多只能满足数据一致性(Consistency)、可用性(Availability)和网络分区容忍(PartitionTolerance)三个特性中的两个。8、简述HBase数据库中表的特点。①数据量大:一个表可以有上百万行②面向列:面向列的储存和权限控制,列独立检索③稀疏:对于为空的列,并不占用储存空间。9、HBase分布式部署时主要涉及到哪些组件?这些组件主要功能是什么?①Hbase客户端②ZooKeeper集群管理③HMaster©HRegionServer10、HDFS的存储策略是什么?给出这样设计的主要理由。采用以机架感知为基础的数据存放策略,即DataNode复制与放置策略。兼顾数据安全和网络传输的开销11、简述SPARK处理流程。SparkContext是Spark程序的入口点,代表到Spark集群的连接,封装了整个spark运行环境的信息。因此当一个Spark应用被提交时,由任务控制节点(Driver)创建一个SparkContext,由SparkContext负责和资源管理器的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源。资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上。SparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAG调度器(DAGScheduler)进行解析,将DAG图分解成多个“阶段”(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交给底层的任务调度器(TaskScheduler)进行处理;Executor向SparkContext申请任务,任务调度器将任务分发给Executor运行,同时SparkContext将应用程序代码发放给Executor。任务在Executor上运行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后存储数据并释放所有资源。12、大数据安全技术框架主要包括那几部分?数据管理身份认证和访问控制数据保护网络安全(防丢失)13、何谓数据脱敏?请举出一些常用的大数据脱敏的技术方法数据脱敏(DataMasking)又称数据漂白、数据去隐私化或数据变形,数据脱敏是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在不可控环境中使用的问题。替换以虚构的数据代替真实的数据,如建立一较大的字典数据表,对每一真实值记录产生随机因子,对原始数据内容进行字典表内容的替换。这种方法得到的数据与真实数据非常相似;无效化以特殊符号代替真值或真值的一部分,如遮盖身份证号码前6-14位。乱...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?