尔雅大数据技术及应用_2期末答案(学习通2023题目答案)

第1章大数据概述

第1章大数据概述

1、尔雅对“数据处理阶段”描述不正确的大数答案是（）。 A. 人工管理阶段 B. 文件管理阶段 C. 文本管理阶段 E. 数据库系统阶段
A、据技人工管理阶段
B、术及文件管理阶段
C、应用文本管理阶段
D、期末数据库系统阶段

2、学习不是通题大数据的关键技术（） A. 大数据的组织 B. 大数据的分析 C. 大数据的存储 E. 大数据的可视化
A、大数据的目答组织
B、大数据的尔雅分析
C、大数据的大数答案存储
D、大数据的据技可视化

3、大数据的术及主要特征是（） A. 大体量 B. 多样性 C. 大价值 E. 随机性
A、大体量
B、应用多样性
C、期末大价值
D、随机性

4、数据库系统是由（）的组成。 A. 硬件环境 B. 软件环境 C. 人员 E. 数据库
A、硬件环境
B、软件环境
C、人员
D、数据库

5、分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。

6、大数据即海量的数据集合。

7、所谓数据库，是以一定的组织方式将相关的数据组织在一起，长期存放在计算机内，可为多个用户共享，与应用程序彼此独立，__________的数据集合。

8、大数据往往表现为数据价值高，但价值__________的特点。

第2章 Hadoop基础

第2章 Hadoop基础

1、下述关于hadoop的阐述，正确的是（）
A、是一个分布式数据库与并行计算系统
B、是一个分布式存储系统与分布式数据库
C、是一个集中式存储与分布式并行运算系统
D、是一个分布式存储与分布式并行运算系统

2、MapReduce是（）计算框架
A、分布式并发
B、非分布式并行
C、分布式并行
D、非分布式并发

3、为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，这种多副本方式具有以下几个优点：（）
A、容易修改数据问题
B、加快数据传输速度
C、保证数据的可靠性
D、容易检查数据错误

4、Hadoop具有以下哪个几个方面的特点（）
A、高可靠性
B、高效性
C、成本低
D、高可扩展性
E、支持多种编程语言

5、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave。Master上运行JobTracker，Slave上运行TaskTracker 。

6、HDFS采用块的概念，默认的一个块大小是64MB。

7、YARN是新一代Hadoop（），用户可以运行和管理同一个物理集群机上多种作业。

8、Hbase是一个针对结构化数据的可申缩、高可靠，高性能、分布式和面向（）的动态模式数据库。

第3章 HDFS分布式文件系统

第3章 HDFS分布式文件系统

1、分布式文件系统HDFS 中的 block 默认保存几份？
A、3 份
B、2 份
C、1 份
D、不确定

2、HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是？
A、一次写入，少次读写
B、多次写入，少次读写
C、一次写入，多次读写
D、多次写入，多次读写

3、Client端上传文件到HDFS上的时候下列正确的是？
A、数据经过NameNode传递给DataNode
B、数据副本将以管道的方式依次传递
C、Client将数据写到一台DataNode上，并由Client负责完成Block复制工作
D、当某个DataNode失败，客户端不会继续传给其它的DataNode

4、以下哪个是HDFS Java API的常见环境准备？
A、hadoop环境准备
B、tomcat环境准备
C、mysql环境准备
D、下载系统镜像

5、Client在HDFS上进行文件写入时，Namenode根据文件大小和配置情况，返回部分Datanode信息。根据Datanode的地址信息，以下哪个选项负责将文件划分为多个Block，按顺序写入到每一个Datanode块？
A、Client
B、Namenode
C、Datanode
D、Secondary namenode

6、HDFS集群中的Namenode职责包括？
A、维护HDFS集群的目录树结构
B、维护HDFS集群的所有数据块的分布、副本数和负载均衡
C、负责保存客户端上传的数据
D、响应客户端的所有读写数据请求

7、Namenode在启动时自动进入安全模式，在安全模式阶段，说法正确的是？
A、安全模式目的是在系统启动时检查各个Datanode上数据块的有效性
B、根据策略对数据块进行必要的复制或删除
C、当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D、文件系统允许有修改

8、关于HDFS的文件写入，错误的是？
A、支持多用户对同一文件的写操作
B、用户可以在文件任意位置进行修改
C、默认将文件块复制成三份存放
D、复制的文件块默认都存在同一机架上

9、判断下列语句是否正确查看目录/usr下的文件列表 hadoop fs -ls /usr

10、数据块的大小可以被修改吗？应当如何修改？

第4章 HBase分布式数据库

第4章 HBase分布式数据库-测验

1、在HBase表中，要定位某一单元格并获取其中的值，则需要提供以下信息（）。
A、行键
B、行键、列
C、行键、列族、列
D、行键、列族、列、时间戳

2、在HBase中，创建一张名为“user_c”的表，该表有一个名为“User”的列族，其相应Shell命令应该是（）。
A、create ‘user_c’, { name => ‘User’};
B、create { ‘user_c’ => ‘User’};
C、create ‘user_c’, { NAME = ‘User’};
D、create ‘user_c’, { NAME => ‘User’};

3、关于 Hbase 的说明，（）是正确的。
A、Hive Database 的简称
B、Hbase 是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统
C、Hbase 底层的文件系统使用 HDFS
D、Hbase 运用 Zookeeper 来管理集群的 Master 与各 Region server 之间的通信，监控各 Region server 的状态，存储各 Region 的入口地址。

4、下列选项关于HBase数据表中列族（Column Family）与列（Column）的说法正确的是（）。
A、每一列都归属某一列族。
B、每一个列族在存储时对应一个文件目录。
C、列簇必须在创建表的时候定义。
D、HBase中不可以动态增加列。

5、HBase系统支持多种数据类型。

6、Admin的功能不包括获得Table对象。

7、HBase依赖（）提供强大的集群管理服务。

8、HBase源于Google公司的一篇论文，文中描述了一个名为（）的分布式存储系统。

第5章 Hive数据仓库工具

第5章 Hive数据仓库工具测验

1、有HQL语句“SELECT * FROM uc LIMIT 10;”，它的功能是（）。
A、返回表uc中前10条数据的所有字段
B、返回表uc中后面10条数据的所有字段
C、返回表uc中第10条数据的所有字段
D、返回表uc中所有数据的前10个字段

2、下列选项是按数据粒度从大到小排列的Hive概念是（）。
A、桶、分区、数据表和数据库
B、数据库、分区、数据表和桶
C、分区、数据库、数据表和桶
D、数据库、数据表、分区和桶

3、下列选项中关于主键和外键的说法错误的是（）。
A、主键是唯一的，外键不唯一
B、外键的作用是建立表之间的关联
C、主键可以为空，外键不可为空
D、Hive中的表必须设置严格意义的主键和外键

4、对于Hive中分区的概念，下列描述错误的是（）。
A、分区字段只能有一个
B、分区字段要在创建表时定义
C、使用分区可以提高查询效率
D、一个分区中的数据存储在一个文件中

5、Hive是一款独立的数据仓库工具，因此在启动前无需启动任何服务。

6、Hive不支持数据更新。

7、Hive将HQL语言转换成作业计划并在（）上执行。

8、使用“CREATE（）TABLE tn (col1 INT, col2 INT);”语句创建外部表时，括号中关键字是（）。

第6章 MapReduce编程模型

第6章 MapReduce编程模型

1、进行大数据数据分析处理的工具是（）。
A、HDFS
B、Hbase
C、MapReduce
D、Hive

2、不属于Reducer的处理流程阶段的是（）。
A、Map Worker阶段
B、Shuffle阶段
C、Sort阶段
D、Reduce阶段

3、MapReduce的特点是（）。
A、数据迁移机制
B、高容错性
C、隐藏底层细节
D、平滑无缝的可扩展性

4、构成MapReduce主从结构是（）。
A、TaskTracker
B、HDFS
C、JobTracker
D、Task

5、MapReduce框架包括多个Master和多个Slave。

6、MapReduce数据处理引擎是由MapTask和ReduceTask组成。

7、MapReduce是一种__________，是用来进行大规模数据集的并行运算。

8、Mapre接收的数据类型为__________，其处理后的数据仍为<key,value>

第7章 Spark计算引擎

第7章 Spark计算引擎

1、不属于Spark独有的特点是（）。
A、支持SQL查询
B、支持流式计算
C、高可用
D、文件格式丰富

2、Action API完成返回数据集中的前n个元素的操作命令是（）。
A、first()
B、reduce(func)
C、count()
D、take(n)

3、Spark与Hadoop的对比，优势是（）。
A、减少磁盘I/O
B、减少应用程序上传成本
C、增强任务并行度
D、避免重新计算

4、Spark系统架构中的元素有（）。
A、Streaming
B、GraphX
C、I/O
D、MLIib

5、Spark不仅拥有了Hadoop MapReduce的优点，主要是将Job中间输出结果保存在内存中。

6、Spark自身实现了Standalone部署模式，此模式下的Master可以有唯一一个，解决了单点故障问题。

7、Spark是专为大规模__________而设计的快速通用的计算引擎。

8、在数据查询方面，Spark支持__________，这极大地方便了传统SQL开发和数据仓库的使用者。

第8章大数据可视化

可视化概念测试

1、数据可视化的关键是：
A、数据
B、数据所代表的事物
C、数据和它所代表的事物之间的关联
D、数据之间的关联

2、从宏观角度看，数据可视化的功能不包括：
A、信息记录
B、信息的推理分析
C、信息清洗
D、信息传播

3、大数据可视化常用的图例有哪些：
A、柱状图
B、直方图
C、扇形图
D、折线图

4、可视化图形设计原则有哪些：
A、主要指标要安排在中间位置、占较大面积；
B、次要指标按优先级依次在核心指标周围展开；
C、一般把有关联的指标放置在相邻或靠近；
D、把图表类型相近的指标放一起。

5、大数据可视化也是位于科学设计和艺术三个不同的人类活动的交叉领域，复杂数据可视化即涉及科学也有关设计，它的艺术性实际上是使用的独特手法，蕴藏着无限的可能性。

6、大数据可视化可以帮助用户更加深刻地透过数据看清本质规律，发现行业的真相。

7、数据可视化是将（）的数据部分或关联的多维数据集合看为一个整体，从统计图形延展到数字艺术的一个连续谱图，它是统计学设计和美学的综合运用。

8、计算机可以把数字批量转换成不同的形状和颜色，但是你必须（），使用图表的人才能够从中得到有价值的信息。

学习通大数据技术及应用_2

在前一篇文章中，我们了解了大数据技术的概述、发展历程、应用场景等。本篇文章我们将深入探讨大数据技术的一些具体内容。

一、大数据技术的分类

目前大数据技术可以分为以下几个领域：

数据采集与存储技术：包括数据源的获取、数据清洗、数据存储等方面。
数据处理与计算技术：包括数据分析、数据挖掘、机器学习等方面。
数据可视化与应用技术：包括数据展示、数据应用、数据服务等方面。

二、大数据技术的核心组件

大数据技术的核心组件一般包括以下几个方面：

分布式文件系统：如Hadoop分布式文件系统（HDFS）、Google文件系统（GFS）等。
分布式计算框架：如Apache Hadoop、Apache Spark、Apache Flink等。
分布式数据库：如Apache HBase、Cassandra、MongoDB等。
数据仓库：如Apache Hive、Presto、Impala等。
流式计算引擎：如Apache Storm、Apache Kafka等。
机器学习平台：如TensorFlow、Caffe、Keras等。

三、大数据技术的应用场景

大数据技术不仅可以应用于传统的互联网领域，还可以应用于各行各业，常见的应用场景如下：

金融行业：包括风险评估、交易监管、客户画像等方面。
医疗行业：包括医疗影像分析、疾病预测、药品研发等方面。
教育行业：包括学生评价、教学过程分析、课程推荐等方面。
零售行业：包括销售预测、商品推荐、供应链管理等方面。

四、大数据技术的发展趋势

随着大数据技术的不断深入发展，未来的大数据技术将更加注重以下几个方面：

大规模数据的存储和分析：从数据量到数据质量、从数据处理到数据应用，大数据技术将更加注重大规模数据的存储和分析。
多模态数据融合：大数据技术将不仅仅局限于文本、图片、音频等单一模态的数据，而是更加注重多模态数据的融合。
人工智能技术的应用：大数据技术将结合人工智能技术，实现更加智能化的数据挖掘、数据分析、数据应用等。

五、总结

大数据技术是当前信息化领域的热门话题，具有广泛的应用场景和巨大的发展潜力。未来的大数据技术将更加注重大规模数据的存储和分析、多模态数据融合、人工智能技术的应用等方面。

学习通大数据技术及应用_2

在前一篇文章中，我们了解了大数据技术的概述、发展历程、应用场景等。本篇文章我们将深入探讨大数据技术的一些具体内容。

一、大数据技术的分类

目前大数据技术可以分为以下几个领域：

数据采集与存储技术：包括数据源的获取、数据清洗、数据存储等方面。
数据处理与计算技术：包括数据分析、数据挖掘、机器学习等方面。
数据可视化与应用技术：包括数据展示、数据应用、数据服务等方面。

二、大数据技术的核心组件

大数据技术的核心组件一般包括以下几个方面：

分布式文件系统：如Hadoop分布式文件系统（HDFS）、Google文件系统（GFS）等。
分布式计算框架：如Apache Hadoop、Apache Spark、Apache Flink等。
分布式数据库：如Apache HBase、Cassandra、MongoDB等。
数据仓库：如Apache Hive、Presto、Impala等。
流式计算引擎：如Apache Storm、Apache Kafka等。
机器学习平台：如TensorFlow、Caffe、Keras等。

三、大数据技术的应用场景

大数据技术不仅可以应用于传统的互联网领域，还可以应用于各行各业，常见的应用场景如下：

金融行业：包括风险评估、交易监管、客户画像等方面。
医疗行业：包括医疗影像分析、疾病预测、药品研发等方面。
教育行业：包括学生评价、教学过程分析、课程推荐等方面。
零售行业：包括销售预测、商品推荐、供应链管理等方面。

四、大数据技术的发展趋势

随着大数据技术的不断深入发展，未来的大数据技术将更加注重以下几个方面：

大规模数据的存储和分析：从数据量到数据质量、从数据处理到数据应用，大数据技术将更加注重大规模数据的存储和分析。
多模态数据融合：大数据技术将不仅仅局限于文本、图片、音频等单一模态的数据，而是更加注重多模态数据的融合。
人工智能技术的应用：大数据技术将结合人工智能技术，实现更加智能化的数据挖掘、数据分析、数据应用等。

五煦查题

尔雅大数据技术及应用_2期末答案(学习通2023题目答案)

学习通大数据技术及应用_2

一、大数据技术的分类

二、大数据技术的核心组件

三、大数据技术的应用场景

四、大数据技术的发展趋势

五、总结

学习通大数据技术及应用_2

一、大数据技术的分类

二、大数据技术的核心组件

三、大数据技术的应用场景

四、大数据技术的发展趋势

五、总结

More Stories

知到秋冬《高级英语》答案(知到2023测试答案)

智慧树物流学概论答案(知到2023测试答案)

中国大学液压与气压传动及润滑技术课后答案(慕课2023课后作业答案)

尔雅投资银行学_1章节答案(学习通2023题目答案)

学习通大数据技术及应用_2

一、大数据技术的分类

二、大数据技术的核心组件

三、大数据技术的应用场景

四、大数据技术的发展趋势

五、总结

学习通大数据技术及应用_2

一、大数据技术的分类

二、大数据技术的核心组件

三、大数据技术的应用场景

四、大数据技术的发展趋势

五、总结

More Stories

You may have missed

知到秋冬《高级英语》答案(知到2023测试答案)

智慧树物流学概论答案(知到2023测试答案)

中国大学液压与气压传动及润滑技术课后答案(慕课2023课后作业答案)

尔雅投资银行学_1章节答案(学习通2023题目答案)