尔雅大数据技术及应用_4课后答案(学习通2023完整答案)

课程导引

第1章大数据概述

1、尔雅提出一个“大数据处理”问题需求，大数答案如有解决方案可简述。据技

第2章 Hadoop基础

第2章 Hadoop基础

1、术及下述关于hadoop的应用阐述，正确的课后是（）
A、是学习一个分布式数据库与并行计算系统
B、是通完一个分布式存储系统与分布式数据库
C、是整答一个集中式存储与分布式并行运算系统
D、是尔雅一个分布式存储与分布式并行运算系统

2、MapReduce是大数答案（）计算框架
A、分布式并发
B、据技非分布式并行
C、术及分布式并行
D、应用非分布式并发

3、课后为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，这种多副本方式具有以下几个优点：（）
A、容易修改数据问题
B、加快数据传输速度
C、保证数据的可靠性
D、容易检查数据错误

4、Hadoop具有以下哪个几个方面的特点（）
A、高可靠性
B、高效性
C、成本低
D、高可扩展性
E、支持多种编程语言

5、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave。Master上运行JobTracker，Slave上运行TaskTracker 。

6、HDFS采用块的概念，默认的一个块大小是64MB。

7、YARN是新一代Hadoop（），用户可以运行和管理同一个物理集群机上多种作业。

8、Hbase是一个针对结构化数据的可申缩、高可靠，高性能、分布式和面向（）的动态模式数据库。

第1章大数据概述

第1章大数据概述

1、对“数据处理阶段”描述不正确的是（）。 A. 人工管理阶段 B. 文件管理阶段 C. 文本管理阶段 E. 数据库系统阶段
A、人工管理阶段
B、文件管理阶段
C、文本管理阶段
D、数据库系统阶段

2、不是大数据的关键技术（） A. 大数据的组织 B. 大数据的分析 C. 大数据的存储 E. 大数据的可视化
A、大数据的组织
B、大数据的分析
C、大数据的存储
D、大数据的可视化

3、大数据的主要特征是（） A. 大体量 B. 多样性 C. 大价值 E. 随机性
A、大体量
B、多样性
C、大价值
D、随机性

4、数据库系统是由（）的组成。 A. 硬件环境 B. 软件环境 C. 人员 E. 数据库
A、硬件环境
B、软件环境
C、人员
D、数据库

5、分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。

6、大数据即海量的数据集合。

7、所谓数据库，是以一定的组织方式将相关的数据组织在一起，长期存放在计算机内，可为多个用户共享，与应用程序彼此独立，__________的数据集合。

8、大数据往往表现为数据价值高，但价值__________的特点。

第3章 HDFS分布式文件系统

第3章 HDFS分布式文件系统

1、分布式文件系统HDFS 中的 block 默认保存几份？
A、3 份
B、2 份
C、1 份
D、不确定

2、HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写

3、Client端上传文件到HDFS上的时候下列正确的是？
A、数据经过NameNode传递给DataNode
B、数据副本将以管道的方式依次传递
C、Client将数据写到一台DataNode上，并由Client负责完成Block复制工作
D、当某个DataNode失败，客户端不会继续传给其它的DataNode

4、以下哪个是HDFS Java API的常见环境准备？
A、hadoop环境准备
B、tomcat环境准备
C、mysql环境准备
D、下载系统镜像

5、Client在HDFS上进行文件写入时，Namenode根据文件大小和配置情况，返回部分Datanode信息。根据Datanode的地址信息，以下哪个选项负责将文件划分为多个Block，按顺序写入到每一个Datanode块？
A、Client
B、Namenode
C、Datanode
D、Secondary namenode

6、HDFS集群中的Namenode职责包括？
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

7、Namenode在启动时自动进入安全模式，在安全模式阶段，说法正确的是？
A、安全模式目的是在系统启动时检查各个Datanode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改

8、关于HDFS的文件写入，错误的是？
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上

9、判断下列语句是否正确查看目录/usr下的文件列表 hadoop fs -ls /usr

10、数据块的大小可以被修改吗？应当如何修改？

第4章 HBase分布式数据库

第4章 HBase分布式数据库-测验

1、在HBase表中，要定位某一单元格并获取其中的值，则需要提供以下信息（）。
A、行键
B、行键、列
C、行键、列族、列
D、行键、列族、列、时间戳

2、在HBase中，创建一张名为“user_c”的表，该表有一个名为“User”的列族，其相应Shell命令应该是（）。
A、create ‘user_c’, { name => ‘User’};
B、create { ‘user_c’ => ‘User’};
C、create ‘user_c’, { NAME = ‘User’};
D、create ‘user_c’, { NAME => ‘User’};

3、关于 Hbase 的说明，（）是正确的。
A、Hive Database 的简称
B、Hbase 是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统
C、Hbase 底层的文件系统使用 HDFS
D、Hbase 运用 Zookeeper 来管理集群的 Master 与各 Region server 之间的通信，监控各 Region server 的状态，存储各 Region 的入口地址。

4、下列选项关于HBase数据表中列族（Column Family）与列（Column）的说法正确的是（）。
A、每一列都归属某一列族。
B、每一个列族在存储时对应一个文件目录。
C、列簇必须在创建表的时候定义。
D、HBase中不可以动态增加列。

5、HBase系统支持多种数据类型。

6、Admin的功能不包括获得Table对象。

7、HBase依赖（）提供强大的集群管理服务。

8、HBase源于Google公司的一篇论文，文中描述了一个名为（）的分布式存储系统。

第5章 Hive数据仓库工具

第5章 Hive数据仓库工具测验

1、有HQL语句“SELECT * FROM uc LIMIT 10;”，它的功能是（）。
A、返回表uc中前10条数据的所有字段
B、返回表uc中后面10条数据的所有字段
C、返回表uc中第10条数据的所有字段
D、返回表uc中所有数据的前10个字段

2、下列选项是按数据粒度从大到小排列的Hive概念是（）。
A、桶、分区、数据表和数据库
B、数据库、分区、数据表和桶
C、分区、数据库、数据表和桶
D、数据库、数据表、分区和桶

3、下列选项中关于主键和外键的说法错误的是（）。
A、主键是唯一的，外键不唯一
B、外键的作用是建立表之间的关联
C、主键可以为空，外键不可为空
D、Hive中的表必须设置严格意义的主键和外键

4、对于Hive中分区的概念，下列描述错误的是（）。
A、分区字段只能有一个
B、分区字段要在创建表时定义
C、使用分区可以提高查询效率
D、一个分区中的数据存储在一个文件中

5、Hive是一款独立的数据仓库工具，因此在启动前无需启动任何服务。

6、Hive不支持数据更新。

7、Hive将HQL语言转换成作业计划并在（）上执行。

8、使用“CREATE（）TABLE tn (col1 INT, col2 INT);”语句创建外部表时，括号中关键字是（）。

第6章 MapReduce编程模型

第6章 MapReduce编程模型

1、进行大数据数据分析处理的工具是（）。
A、HDFS
B、Hbase
C、MapReduce
D、Hive

2、不属于Reducer的处理流程阶段的是（）。
A、Map Worker阶段
B、Shuffle阶段
C、Sort阶段
D、Reduce阶段

3、MapReduce的特点是（）。
A、数据迁移机制
B、高容错性
C、隐藏底层细节
D、平滑无缝的可扩展性

4、构成MapReduce主从结构是（）。
A、TaskTracker
B、HDFS
C、JobTracker
D、Task

5、MapReduce框架包括多个Master和多个Slave。

6、MapReduce数据处理引擎是由MapTask和ReduceTask组成。

7、MapReduce是一种__________，是用来进行大规模数据集的并行运算。

8、Mapre接收的数据类型为__________，其处理后的数据仍为<key,value>

第7章 Spark计算引擎

第7章 Spark计算引擎

1、不属于Spark独有的特点是（）。
A、支持SQL查询
B、支持流式计算
C、高可用
D、文件格式丰富

2、Action API完成返回数据集中的前n个元素的操作命令是（）。
A、first()
B、reduce(func)
C、count()
D、take(n)

3、Spark与Hadoop的对比，优势是（）。
A、减少磁盘I/O
B、减少应用程序上传成本
C、增强任务并行度
D、避免重新计算

4、Spark系统架构中的元素有（）。
A、Streaming
B、GraphX
C、I/O
D、MLIib

5、Spark不仅拥有了Hadoop MapReduce的优点，主要是将Job中间输出结果保存在内存中。

6、Spark自身实现了Standalone部署模式，此模式下的Master可以有唯一一个，解决了单点故障问题。

7、Spark是专为大规模__________而设计的快速通用的计算引擎。

8、在数据查询方面，Spark支持__________，这极大地方便了传统SQL开发和数据仓库的使用者。

第8章大数据可视化

可视化概念测试

1、数据可视化的关键是：
A、数据
B、数据所代表的事物
C、数据和它所代表的事物之间的关联
D、数据之间的关联

2、从宏观角度看，数据可视化的功能不包括：
A、信息记录
B、信息的推理分析
C、信息清洗
D、信息传播

3、大数据可视化常用的图例有哪些：
A、柱状图
B、直方图
C、扇形图
D、折线图

4、可视化图形设计原则有哪些：
A、主要指标要安排在中间位置、占较大面积；
B、次要指标按优先级依次在核心指标周围展开；
C、一般把有关联的指标放置在相邻或靠近；
D、把图表类型相近的指标放一起。

5、大数据可视化也是位于科学设计和艺术三个不同的人类活动的交叉领域，复杂数据可视化即涉及科学也有关设计，它的艺术性实际上是使用的独特手法，蕴藏着无限的可能性。

6、大数据可视化可以帮助用户更加深刻地透过数据看清本质规律，发现行业的真相。

7、数据可视化是将（）的数据部分或关联的多维数据集合看为一个整体，从统计图形延展到数字艺术的一个连续谱图，它是统计学设计和美学的综合运用。

8、计算机可以把数字批量转换成不同的形状和颜色，但是你必须（），使用图表的人才能够从中得到有价值的信息。

大数据技术及应用期末测试

“大数据技术及应用”期末试题

1、下述关于 Hadoop的阐述，正确的是（）。
A、是一个分布式数据库与并行计算系统
B、是一个分布式存储系统与分布式数据库
C、是一个集中式存储与分布式并行运算系统
D、是一个分布式存储与分布式并行运算系统

2、关于HDFS的文件写入操作描述正确的是（）。
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上

3、以下选项中，不是HBase添加数据需要用到的类和接口的是（）。
A、Scan
B、Put
C、Admin
D、Table

4、HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（）。
A、一次写入，少次读写
B、一次写入，多次读写
C、多次写入，少次读写
D、多次写入，多次读写

5、对于Hive中分区的概念，下列描述错误的是（）。
A、分区字段只能有一个
B、分区字段要在创建表时定义
C、使用分区可以提高查询效率
D、一个表可以在多个维度上进行分区

6、MapReduce作业的初始化调用的方法是（）。
A、JobClient.runJob()
B、reduce()
C、JobTracker.initJob()
D、getSplits()

7、Action API完成返回数据集中的元素个数的操作命令是（）。
A、first()
B、reduce(func)
C、count()
D、take(n)

8、不是数据可视化专门工具的是（）。
A、Tableau
B、Echarts
C、HBase
D、Matplotlib

9、大数据的主要特征是（）。
A、大体量
B、多样性
C、大价值
D、随机性

10、以下哪些是Hadoop核心构件（）。
A、Mapreduce
B、Hbase
C、Hive
D、Hdfs

11、HDFS集群中的Namenode职责包括（）。
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

12、HBas存储底层数据，不依靠（）。
A、HDFS
B、MapReduce
C、Hive
D、ZooKeeper

13、下列选项表示数据集粒度大、小的Hive概念是（）。
A、桶
B、分区
C、数据库
D、数据表

14、MapReduce的特点是（）。
A、数据迁移机制
B、高容错性
C、隐藏底层细节
D、平滑无缝的可扩展性

15、有关RDD描述正确的是（ )。
A、一组分片是数据集的基本组成单位
B、计算是以分片为单位的
C、RDD的每次转换都会生成一个新的RDD
D、是一个分区的只读记录的集合

16、设计可视化图形需要注意事项是（）。
A、输出设备
B、页面布局
C、页面布局
D、页面布局

17、数据可视化是一种媒介，探索，展示和表达数据含义的一种方法。

18、MapReduce框架包括多个Master和多个Slave。

19、关系数据库是基于行模式存储的，而HBase也是基于行模式存储的。

20、Hadoop是一个能够对大量数据进行分布式处理的软件框架。

21、MapReduce数据处理引擎是由MapTask和ReduceTask组成。

22、大数据速度快（Velocity）是由数据的“增长速度，__________”来体现的。

23、HDFS采用了主从结构模型，是由__________、名称节点和数据节点等元素组成。

24、利用Hbase存储数据，表的结构__________，每行都有一个可排序的主键和任意多的列。

25、Hive实质上是数据仓库工具，由此，HiveQL和SQL工作界面__________。

26、Spark是专为大规模__________而设计的快速通用的计算引擎。