mooc大数据技术导论_1课后答案(慕课2023完整答案)
67 min readmooc大数据技术导论_1课后答案(慕课2023完整答案)
第1章 单元测验
1、大数大数据是据技一个什么领域的问题()。
A、术导计算机领域
B、论课数学统计领域
C、后答业务领域
D、案慕案多学科综合领域
2、课完科学研究第四范式数据思维采用()。整答
A、大数科学归纳
B、据技模型推演
C、术导仿真模拟
D、论课关联分析
3、后答大数据的案慕案优势包括()。
A、课完数据体量大
B、收集时间短
C、数据类型丰富
D、价值密度高
4、大数据处理框架之批处理框架()。
A、hadoop
B、Spark
C、Flink
D、jvm
5、大数据处理框架之流计算框架()。
A、hadoop
B、Spark streaming
C、Flink
D、STORM
6、系统的控制方式一般分为模型驱动和_____________。
7、4V特征:数据规模大 、_________、数据处理速度快、价值密度低。
8、大数据的处理过程:数据获取与管理、数据存储与处理、数据分析与______、结合领域的大数据应用。
9、科学研究的第三范式 计算思维- ______。
10、大数据领域的职业包括首席数据官、系统架构师、___________、领域科学家。
第2章 大数据感知与获取
第2章单元测验
1、
A、M1-M2-M3-S4-M5-M6-M8-S7
B、M1-M2-M5- M8- M6-M3-S7-S4
C、M1-M2-M3-S4-M5-M6- S7 - M8
D、M1-M2-M5- M8- M6-M3- S4 - S7
2、下面科学研究的四个范式顺序正确的是 ( )。
A、经验范式-理论范式-模拟范式-数据密集型范式
B、理论范式-模拟范式-经验范式-数据密集型范式
C、理论范式-模拟范式-数据密集型范式-经验范式
D、理论范式-经验范式-数据密集型范式-模拟范式
3、以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式是以下哪个范式 ( )。
A、经验范式
B、理论范式
C、模拟范式
D、数据密集型范式
4、在大数据生命周期的各个阶段中,工作最多的是哪个阶段 ( )。
A、数据存储
B、数据收集和整理
C、数据分析
D、数据治理
5、在增量抽取方法中,需要计算MD5校验码的是哪种增量抽取方法 ( ) 。
A、日志对比
B、时间戳
C、触发器
D、全表对比
6、在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法 ( ) 。
A、深度优先
B、广度优先
C、局部PageRank策略
D、OPIC
7、大数据中的非结构化数据包括 ( )。
A、图像
B、文本
C、语音
D、视频
8、大数据中的半结构化数据包括 ( )。
A、办公文档
B、电子邮件
C、XML
D、HTML
9、常见的分布式网络爬虫架构有 ( ) 。
A、Master-worker
B、Master-slave
C、peer-peer
D、Mixed
10、以下哪些内容属于深网内容 ( )。
A、通过搜索引擎搜索得到的结果
B、Web上可访问的非网页文件,比如图片文件,Pdf和word文档等
C、通过填写表单形成对后台在线数据库的查询而得到的动态页面
D、需要注册或其他限制才能访问的内容
第3章 大数据存储与管理
第3章 单元测验
1、HBase依靠( )存储底层数据 。
A、HDFS
B、Hadoop
C、Memory
D、MapReduce
2、下列选项中哪些不是NoSQL数据库的特点 ( ) 。
A、灵活的可扩展性
B、动态的数据迁移
C、与云计算紧密融合
D、灵活的数据模型
3、HDFS中文件块默认保存几份 ( )。
A、1 份
B、2 份
C、3 份
D、4 份
4、下面与HDFS类似的框架是 ( )。
A、NTFS
B、FAT32
C、GFS
D、EXT3
5、分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有哪些优势 ( )。
A、低成本
B、易扩展
C、强可靠
D、高可用
6、下面对HBase的描述哪些是正确的 ( )。
A、不是开源的
B、是面向列的
C、是分布式的
D、是一种NoSQL数据库
7、Hadoop的框架最核心的设计是 ( )。
A、HDFS
B、MapReduce
C、Namenode
D、Datanode
8、HBase的实现包括哪几个主要的功能组件 ( ) 。
A、库函数
B、一个Master主服务器
C、许多个Region服务器
D、一个Region服务器
9、HDFS 专为解决大数据存储问题而产生的,其具备了以下哪些特点 ( )。
A、兼容廉价的硬件设备
B、流数据读写
C、大数据集
D、复杂的文件模型
E、强大的跨平台兼容性
10、NoSQL数据库的明显优势在于 ( )。
A、实现数据完整性
B、支持超大规模数据存储
C、灵活的数据模型可以很好的支持Web2.0应用
D、具有强大的横向扩展能力
第4章 大数据分析与可视化
第4章单元测试
1、大数据可视化分析有效融合计算机的______和人的_____,以获得对于大规模复杂数据集的洞察力。
A、计算能力、认知能力
B、计算能力、分析能力
C、分析能力、观察能力
D、认知能力、计算能力
2、下列关于数据可视化的介绍,不正确的是()。
A、可视化技术被大量应用于统计学领域、地理信息系统、数据挖掘分析、商务智能工具等。
B、统计图表有饼图、时间序列图、散点图、等高线图等多种形式
C、可视化分析用到了支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术。
D、雷达图不适用于多维数据。
3、以下哪个不是数据可视化方法和技术?
A、图可视化技术
B、多维数据可视化技术
C、时空数据可视化技术
D、混合建模技术
4、关于数据挖掘任务,下列说法正确的是()
A、聚类是描述性任务。
B、分类属于预测性任务
C、聚类属于无监督范畴。
D、回归分析属于描述性任务
5、下列可以用于多维数据可视化的方法有()
A、GMap
B、平行坐标系
C、雷达图
D、散点图矩阵
6、设X是非空集合,对于X中任意的两个元素x与y,按某一法则都对应唯一的实数d(x,y),而且满足下述()性质,则称d(x,y)为x与y的距离。
A、非负性d(x,y)≥0
B、B d(x,y)=d(y,x)
C、对于任意的x,y,z∈X,有d(x,y)≤d(x,z)+d(z,y)
D、传递性
7、以下哪些是数据可视化的作用()
A、协助思考
B、探索数据
C、作为大量工作记忆的外界辅助
D、理解信息
8、预测任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)
9、文本是大数据时代结构数据类型的典型代表。
10、PCA是一种有监督的降维方法。
11、Textflow用河流的运动表达了文本主题的诞生、发展、合并、分裂、消亡的过程。导致主题演变的原因往往是主题关键词的变化。
12、聚类是在没有先验知识的情况下进行的。
13、将收入在范围$12,000至$98,000内的收入规范化到区间 [0.0, 1.0],$73,600将被规范为: (保留两位小数)
14、两个向量的方向差异可以表示为两个向量夹角的 。
15、图的简化中, 技术会将相似形状的边连接线集中在一起构成约束,降低视觉复杂度,使节点间的连接关系更加清楚。
第5章 大数据处理
第5章 单元测验
1、在Spark运行时,( )为程序构建基本运行环境 Spark context对象(应用管家),向资源管理器进行资源申请,任务分配与监控。
A、Driver program
B、Spark Environment
C、DAG Scheduler
D、Task Scheduler
2、Spark的组件中,用于做查询分析的是()。
A、Spark SQL
B、Spark Streaming
C、Spark MLib
D、Spark Core
3、以下属于Spark的特点的有 ( )。
A、Speed
B、Concise
C、In-memory processing
D、Lazy Evaluation
4、MapReduce执行的全过程包括以下几个主要阶段 ( )。
A、从分布式文件系统读入数据
B、执行Map任务输出中间结果
C、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务
D、执行Reduce任务得到最终结果并写入分布式系统文件
5、RDD的两种主要操作类型是()。
A、Transform
B、Action
C、Map
D、Reduce
6、关于RDD论述正确的是 ( )。
A、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集
B、RDD读取的数据都存储在一台机器上
C、RDD是只读存储
D、RDD 支持各种粗粒度和细粒度的操作
7、Spark 支持的开发语言有 ( )。
A、Java
B、C语言
C、Python
D、Scala
8、Apache软件基金会最重要的三大分布式计算系统开源项目包括 ( )。
A、Hadoop
B、Spark
C、Storm
D、HDFS
9、Shuffle过程分为Map端的操作和Reduce端的操作 。( )
10、Hadoop擅长批处理,不适合流计算。( )
11、MapReduce设计的一个理念是“数据向计算靠拢”,并采用“分而治之”的策略。( )
12、Shuffle过程是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。( )
第6章 大数据安全与隐私保护
6.4 大数据隐私保护(四)随堂测验
1、数据匿名化的原因有哪些
A、实现数据共享发布,而不泄漏用户的隐私
B、防止数据被篡改
C、压缩数据的存储空间
D、实现数据清洗
2、下列哪些信息可能会侵犯用户的隐私
A、搜索引擎的搜索记录
B、浏览器的访问痕迹
C、电商平台的购物记录
D、地图应用的搜索记录
3、下列哪些方法可以实现匿名化
A、元组抑制
B、属性泛化
C、属性置换
D、属性扰乱
4、关于隐私保护技术,以下描述正确的包括
A、K-匿名的局限性是容易遭受同质性攻击
B、L-多样性的局限性是容易遭受相似性攻击
C、T-相近比K-匿名和L-多样性有更强的隐私保护性能
D、K-匿名无法保证敏感值缺乏多样性
5、计算k-匿名的算法分类包括
A、基于泛化和基于元组抑制的算法
B、基于全局和基于局部记录的算法
C、基于层次和基于划分的算法
D、基于集合枚举和基于格搜索的算法
6、K-匿名规则满足子集属性和泛化属性
7、蒙德里安算法是一种基于划分的算法
8、极小全域泛化的集合构成一个反链
9、熵l-多样性满足子集属性和泛化属性
10、递归(c,l)-多样性不满足泛化属性
第7章 大数据技术应用
第7章 单元测验
1、在“看不见的动机中”由于数据使用者和数据生成机构都是( )的生产大数据,忽略了人们行为背后趋利避害的动机的大数据统计分析。
A、无意识
B、有意识
C、自主选择
D、趋向选择
2、小数据强调采样,精确以及因果关系,大数据强调()。
A、全样
B、非精确
C、相关关系
D、因果关系
3、大数据面临的挑战包括()。
A、大数据自大
B、算法演化
C、数据来源少
D、看不见的动机
4、数据收集过程的性质发生了变化,大数据不再只是被动记录使用者的决策,而是通过 ______ ,积极参与到使用者的行为决策中。
5、夜光遥感挖掘是通过在遥感图像中提取________数据进行绘制和分析。
6、“大数据自大(big data hubris)”的倾向,即认为_______, 这里的关键是,企业或者机构拥有的这个称为总体的数据和研究问题关心的总体是否相同.
7、在大数据分析中只关心________而不关注因果关系。
8、热力图是通过__________数据进行绘制和分析。
9、谷歌通过__________来预测流感发病率。
10、_______ 未卜先知的故事,常被看做大数据分析优势的明证。
大数据技术导论期末测试
大数据技术导论期末试题
1、大数据是一个什么领域的问题?
A、业务领域
B、计算机领域
C、多学科综合领域
D、数学统计领域
2、以下哪种技术对大数据技术的发展起了最重要基础支撑作用?
A、云计算技术
B、信息安全技术
C、物联网技术
D、数据库技术
3、科学研究的第三范式是计算思维-()
A、仿真模拟
B、模型推演
C、关联分析
D、科学归纳
4、与大数据直接相关的职业不包括
A、数据分析师
B、系统架构师
C、领域科学家
D、首席执行官
5、下面科学研究的四个范式顺序正确的是 ( )
A、理论范式-模拟范式-经验范式-数据密集型范式
B、理论范式-模拟范式-数据密集型范式-经验范式
C、理论范式-经验范式-数据密集型范式-模拟范式
D、经验范式-理论范式-模拟范式-数据密集型范式
6、在大数据生命周期的各个阶段中,工作最多的是哪个阶段 ( )
A、数据分析
B、数据收集和整理
C、数据治理
D、数据存储
7、在网络爬虫策略中需要根据链接计算网页重要性的是以下哪个算法 ( )
A、局部PageRank策略
B、广度优先
C、深度优先
D、OPIC
8、常见的分布式网络爬虫架构不包含 ( )
A、Master-slave
B、Mixed
C、Master-worker
D、peer-peer
9、以下哪项不是传统关系型数据库的弱点?
A、无法满足海量数据的管理要求
B、无法满足数据高并发的需求
C、无法满足数据一致性和完整性的需求
D、无法满足高拓展性和高可用性的需求
10、下列对HBase数据模型的描述错误的是
A、每个HBase表都由若干行组成,每个行由行键(row key)来标识
B、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
D、HBase列族支持动态扩展,可以很轻松地添加一个列族或列
11、HBase是一种()数据库
A、关系数据库
B、文档数据库
C、列式数据库
D、行式数据库
12、访问HBase表中的行,不可以用以下哪种方式
A、通过一个行健的区间来访问
B、全表扫描
C、通过某列的值区间
D、通过单个行健访问
13、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫(),另一类存储具体数据叫()
A、名称节点,数据节点
B、名称节点,主节点
C、从节点,主节点
D、数据节点,名称节点
14、HDFS中文件块默认保存几份 ( )
A、2 份
B、3 份
C、4 份
D、5 份
15、下面与HDFS类似的框架是 ( )
A、FAT32
B、NTFS
C、GFS
D、EXT3
16、下列关于NoSQL数据库和关系型数据库的比较,不正确的是
A、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言
B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
C、NoSQL数据库具有弱一致性,关系型数据库具有强一致性
D、NoSQL数据库的可扩展性比传统的关系型数据库更好
17、下列数据库属于文档数据库的是
A、HBase
B、Redis
C、MongoDB
D、MySQL
18、NoSQL数据库的CAP不包含()
A、一致性
B、可用性
C、分区容忍性
D、持久性
19、NoSQL数据库的BASE不包含()
A、持续性
B、最终一致性
C、基本可用
D、软状态
20、关于NoSQL数据库和关系数据库,下列说法不正确的是:
A、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
B、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库
C、大多数NoSQL数据库很难实现数据完整性
D、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
21、NoSQL数据库的明显优势不包含()
A、具有强大的横向扩展能力
B、灵活的数据模型可以很好的支持Web2.0应用
C、实现数据完整性
D、支持超大规模数据存储
22、下列关于数据可视化的介绍,不正确的是()
A、可视化分析用到了支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术
B、统计图表有饼图、时间序列图、散点图、等高线图等多种形式
C、可视化技术被大量应用于统计学领域、地理信息系统、数据挖掘分析、商务智能工具等
D、雷达图不适用于多维数据
23、关于数据挖掘任务,下列说法不正确的是()
A、聚类属于无监督范畴
B、聚类是描述性任务
C、回归分析属于描述性任务
D、分类属于预测性任务
24、下列不可以用于多维数据可视化的方法有()
A、GMap
B、散点图矩阵
C、平行坐标系
D、雷达图
25、数据度量的常用方法不包括:
A、相似性函数
B、夹角余弦
C、相关系数
D、聚类系数
26、Spark的组件中,用于做查询分析的是()
A、Spark MLib
B、Spark Core
C、Spark Streaming
D、Spark SQL
27、关于MapReduce,下列说法错误的是
A、不同的Map任务之间不能互相通信
B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
C、Map函数将输入的元素转换成<key,value>形式的键值对
D、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
28、传统并行计算框架(比如MPI)和MapReduce并行计算框架相比较的特点不包含
A、前者相比后者学习起来更容易
B、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
C、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
29、关于RDD论述正确的是 ( )
A、RDD读取的数据都存储在一台机器上
B、RDD是一种高效的可读写存储
C、RDD提供一种高度受限的共享内存模型,是一个弹性分布式数据集
D、RDD 支持各种粗粒度和细粒度的操作,是一个高效的多模态处理系统
30、Apache软件基金会最重要的三大分布式计算系统开源项目不包括( )
A、MapReduce
B、Spark
C、Storm
D、Hadoop
31、利用大数据特性进行隐私保护的方式不包含:
A、数据匿名化
B、属性多样性
C、差分隐私保护
D、数据加密传输技术
32、以下哪项对数据隐私问题的影响相对最小
A、证明P=NP
B、研制出量子计算机
C、和企业成立安全联盟
D、发现了新的可计算哈希碰撞
33、大数据分析的挑战不包括()
A、大数据自大
B、算法演化
C、看不见的动机
D、无处不在的数据
34、科学研究的第一到第四范式数据思维依次分别采用:仿真模拟、模型推演、关联分析、科学归纳
35、大数据的优势包含:数据体量大,数据类型丰富,价值密度高,收集时间短
36、大数据处理中的批处理框架包含Flink、hadoop、jvm、Spark
37、大数据处理中的流计算框架包含Flink、Spark streaming、STORM
38、大数据处理中批流融合计算很难,目前业界关于此类研究处于空白状态
39、系统的控制方式一般分为模型驱动和数据驱动
40、4V特征包含:数据规模大、数据密度低、数据处理速度快、价值密度低
41、大数据的处理过程包含,数据获取与管理、数据存储与处理、数据分析与理解、结合领域的大数据应用
42、模拟范式是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式
43、全表对比是一种需要计算MD5校验码的非增量抽取方法
44、大数据中的非结构化数据包括视频、图像、语音、文本
45、电子表格Excel、网页HTML均属于结构化数据
46、通过使用词组查询搜索引擎搜索得到的结果、通过填写表单形成对后台在线数据库的查询而得到的动态页面、需要注册或其他限制才能访问的内容都属于深网内容
47、HBase依靠Hadoop存储底层数据
48、NoSQL的数据特点包含与云计算紧密融合,灵活的可扩展性,动态的数据迁移、灵活的数据模型
49、HDFS只设置唯一一个名称节点带来的局限性主要包括集群的可用性、命名空间的限制、隔离问题以及性能的瓶颈
50、在分布式文件系统中,采用采用多副本冗余存储可以节约存储空间、保证数据可靠性、更容易检查数据错误并加快数据传输速度
51、分布式文件系统改变了数据存储和管理方式,相对于本地文件系统具有易扩展、低成本、强可靠、高可用的优势
52、HBase是一种开源的,是面向行的、分布式的NoSQL数据库
53、Hadoop的框架最核心的设计是HDFS和MapReduce
54、HBase的实现主要包含许多个Master主服务器、Region服务器及库函数
55、HDFS 专为解决大数据存储问题而产生的,其具备了强大的跨平台兼容性,支持批和流数据读写,实现了低延时数据访问,并兼容廉价的硬件设备
56、NoSQL数据库的三大理论基石包括BASE、CAP和最终一致性
57、目前,NoSQL的含义是“Not only SQL”,而不是“No SQL”。
58、一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。
59、数据可视化方法和技术包含多维数据可视化技术、图可视化技术、时空数据可视化技术以及混合建模技术
60、数据可视化可以理解信息、探索数据、协助思考,并作为大量工作记忆的外界辅助
61、预测任务的目标是导出和概括数据中有潜在联系的模式(相关、趋势、聚类、轨迹和异常)
62、PCA是一种无监督的降维方法
63、Textflow用河流的运动表达了文本主题的诞生、发展、合并、分裂、消亡的过程导致主题演变的原因往往是主题关键词的变化
64、聚类是在没有先验知识的情况下进行的
65、Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS
66、在Spark运行时,Task Scheduler为程序构建基本运行环境 Spark context对象(应用管家),向资源管理器进行资源申请,任务分配与监控
67、Concise、Speed、Lazy Evaluation、In-memory processing均属于Spark的特点
68、MapReduce执行的全过程包含,从分布式文件系统读入数据、执行Map任务输出中间结果、通过Reduce阶段把中间结果分区排序整理,执行Shuffle任务得到最终结果并写入分布式系统文件
69、MapReduce体系结构包含Task、TaskTracker、JobTracker、Client
70、使用MapReduce时,两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>
71、RDD的两种主要操作类型是Partition和Action
72、Spark是一个专为大规模数据处理而设计的快速通用的计算引擎,官方支持Scala、Java、C、Python语言
73、Hadoop擅长批处理,不适合流计算
74、Shuffle过程是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程
75、MapReduce设计的一个理念是“数据向计算靠拢”,并采用“分而治之”的策略
76、理论上如果数据传输渠道确保不被窃取、数据存储服务器不被破解、数据库确保不被他人脱库,则不存在数据隐私问题。
77、数据匿名化技术将数据库的部分敏感数据隐匿,使得攻击者无法直接获取到敏感数据
78、属性多样技术的原理是给予敏感属性不少于l个多样性的值,使得攻击者难以猜测到真实的属性
79、数据匿名技术难以解决同质性攻击
80、属性多样技术难以解决同质性攻击,但是可以克服相似性攻击
学习通大数据技术导论_1
大数据技术是指对大规模数据进行整理、分析和处理的技术。它的出现是因为传统的数据库和处理方式已经无法满足日益增长的数据需求。随着互联网、移动互联网、物联网等新技术的发展,数据量呈现爆发式增长,大数据技术也因此迅速发展起来。
大数据技术包括数据采集、存储、处理、分析、应用等方面,其中最重要的是数据处理和分析技术。大数据处理技术包括分布式计算、分布式存储、数据处理引擎、数据挖掘、机器学习等技术。大数据分析技术包括数据可视化、统计分析、数据挖掘、机器学习等技术。
大数据技术的应用非常广泛,包括但不限于以下几个方面:
- 金融领域:大数据技术可以帮助银行、证券公司等机构更好地风控,提高贷款审核效率,预测市场走势等。
- 医疗领域:大数据技术可以帮助医院管理患者信息、疾病信息、药品信息等,提高诊疗效率。
- 电商领域:大数据技术可以帮助电商平台更好地了解用户需求、提高个性化推荐、优化营销策略等。
- 智能制造领域:大数据技术可以帮助企业管理生产过程中的数据,提高生产效率和质量。
- 城市管理领域:大数据技术可以帮助城市管理部门更好地了解城市交通、环保、资源等情况,提高城市管理水平。
大数据技术的前景非常广阔,它是当今社会智能化、信息化发展的必然趋势。同时,大数据技术也面临着数据隐私、数据安全等问题。因此,我们需要更加重视大数据技术的研究和应用,同时加强数据保护和隐私保护等方面的研究和工作。