超星大数据技术原理与应用课后答案(学习通2023题目答案)

超星大数据技术原理与应用课后答案(学习通2023题目答案)

第1讲 大数据概述

第1讲大数据概述章节单元测验

1、超星第三次信息化浪潮的大数答案标志是:
A、个人电脑的据技普及
B、互联网的术原普及
C、云计算、用课大数据、后答物联网技术的案学普及
D、虚拟现实技术的习通普及

2、就数据的题目量级而言,1PB数据是超星多少TB?
A、512
B、大数答案1024
C、据技1000
D、术原2048

3、用课以下关于云计算、后答大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析

4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL

5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm

6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala

7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel

8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4

9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段

10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期

11、大数据的4V特性包括:
A、数据量大
B、数据新颖
C、数据类型繁多
D、处理速度快
E、价值密度低

12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了四种范式,具体包括:
A、猜想科学
B、实验科学
C、理论科学
D、计算科学
E、数据密集型科学

13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果

14、大数据的四种主要计算模式包括:
A、批处理计算
B、流计算
C、框计算
D、图计算
E、查询分析计算

15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS

第2讲 大数据处理架构Hadoop

第2讲大数据处理架构Hadoop单元测验

1、启动hadoop所有进程的命令是
A、start-dfs.sh
B、start-hadoop.sh
C、start-all.sh
D、start-hdfs.sh

2、以下对Hadoop的说法错误的是
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

3、以下哪个不是hadoop的特性
A、高容错性
B、高可靠性
C、成本高
D、支持多种编程语言

4、以下名词解释不正确的是
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

5、以下哪些组件是Hadoop的生态系统的组件
A、MapReduce
B、HDFS
C、Oracle
D、HBase

6、以下哪个命令可以用来操作HDFS文件
A、hadoop fs
B、hdfs dfs
C、hadoop dfs
D、hdfs fs

第3讲 分布式文件系统HDFS

分布式文件系统HDFS单元测验

1、HDFS的命名空间不包含
A、目录
B、文件
C、块
D、字节

2、采用多副本冗余存储的优势不包含
A、加快数据传输速度
B、节约存储空间
C、容易检查数据错误
D、保证数据可靠性

3、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫
A、名称节点,数据节点
B、数据节点,名称节点
C、名称节点,主节点
D、从节点,主节点

4、下面关于分布式文件系统HDFS的描述正确的是:
A、分布式文件系统HDFS是一种关系型数据库
B、分布式文件系统HDFS是Google Bigtable的一种开源实现
C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
D、分布式文件系统HDFS比较适合存储大量零碎的小文件

5、以下对名称节点理解正确的是
A、名称节点通常用来保存元数据
B、名称节点的数据保存在内存中
C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D、名称节点用来负责具体用户数据的存储

6、以下对数据节点理解正确的是
A、数据节点用来存储具体的文件内容
B、数据节点的数据保存在磁盘中
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点通常只有一个

7、HDFS只设置唯一一个名称节点带来的局限性包括
A、性能的瓶颈
B、命名空间的限制
C、隔离问题
D、集群的可用性

第4讲 分布式数据库HBase

分布式数据库HBase单元测验

1、HBase是一种 数据库
A、行式数据库
B、列式数据库
C、文档数据库
D、关系数据库

2、下列对HBase数据模型的描述错误的是
A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列
C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
D、每个HBase表都由若干行组成,每个行由行键(row key)来标识

3、下列说法正确的是
A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器
B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等。
C、如果不启动Hadoop,则HBase完全无法使用
D、如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据。

4、对于HBase数据库而言,每个Region的建议最佳大小是
A、100MB-200MB
B、500MB-1000MB
C、1GB-2GB
D、2GB-4GB

5、HBase三层结构的顺序是
A、Zookeeper文件,.MEATA.表,-ROOT-表
B、Zookeeper文件,-ROOT-表,.MEATA.表
C、-ROOT-表,Zookeeper文件,.MEATA.表
D、.MEATA.表,Zookeeper文件,-ROOT-表

6、客户端是通过 级寻址来定位Region
A、一
B、二
C、三
D、四

7、下列对HBase的理解正确的是
A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
B、HBase是针对谷歌BigTable的开源实现
C、HBase多用于存储非结构化和半结构化的松散数据
D、HBase是一种关系型数据库,现成功应用于互联网服务领域

8、HBase和传统关系型数据库的区别在于哪些方面:
A、数据模型
B、数据操作
C、存储模式
D、数据索引
E、数据维护
F、可伸缩性

第7讲 MapReduce

MapReduce单元测验

1、下列说法错误的是
A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
C、Map函数将输入的元素转换成<key,value>形式的键值对
D、不同的Map任务之间不能互相通信

2、在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A、<"hello",1,1>、<"hadoop",1>和<"world",1>
B、<"hello",2>、<"hadoop",1>和<"world",1>
C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>
D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

3、对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是
A、<"hello",1,1><"hadoop",1><"world",1>
B、<"hello",2><"hadoop",1><"world",1>
C、<"hello",<1,1>><"hadoop",1><"world",1>
D、<"hello",1><"hello",1><"hadoop",1><"world",1>

4、下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是
A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C、前者相比后者学习起来更难
D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

5、MapReduce体系结构主要由哪几个部分组成
A、Client
B、JobTracker
C、TaskTracker
D、Task

6、MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。

7、两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>

8、MapReduce采用 策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。

9、所谓 过程,是指对Map输出结果进行分区、排序、合并等处理,并交给Reduce的过程。

第5讲 NoSQL数据库

NoSQL数据库单元测验

1、下列关于NoSQL数据库和关系型数据库的比较,不正确的是
A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性
B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
C、NoSQL数据库的可扩展性比传统的关系型数据库更好
D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

2、以下对各类数据库的理解错误的是
A、HBase数据库是列族数据库,可扩展性强,支持事务一致性
B、文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中
C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

3、下列数据库属于文档数据库的是
A、MySQL
B、HBase
C、Redis
D、MongoDB

4、NoSQL数据库的三大理论基石不包括
A、CAP
B、BASE
C、最终一致性
D、ACID

5、关于NoSQL数据库和关系数据库,下列说法正确的是:
A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
C、大多数NoSQL数据库很难实现数据完整性
D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

6、NoSQL数据库的类型包括
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

7、CAP是指
A、一致性
B、可用性
C、持久性
D、分区容忍性

8、NoSQL数据库的BASE特性是指
A、基本可用
B、软状态
C、最终一致性
D、持续性

9、目前,NoSQL的含义是“Not only SQL”,而不是“No SQL”。

10、一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。

第6讲 云数据库

云数据库单元测验

1、下列Amazon的云数据库属于关系数据库的是
A、Amazon SimpleDB
B、Amazon RDS
C、Amazon DynamoDB
D、Amazon Redshift

2、下列关于UMP系统的说法不正确的是
A、UMP系统是低成本和高性能的MySQL云数据库方案
B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能
C、Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例
D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

3、UMP依赖的开源组件包括
A、Mnesia
B、LVS
C、RabbitMQ
D、ZooKeeper

4、在UMP系统中,Zookeeper主要发挥的作用包括
A、作为全局的配置服务器
B、提供分布式锁,选出一个集群的“总管”
C、监控所有MySQL实例
D、负责集群负载均衡

5、UMP系统设计了哪些机制来保证数据安全
A、SSL数据库连接
B、记录用户操作日志
C、数据访问IP白名单
D、SQL拦截

6、UMP系统通过多个组件的协同作业,实现对用户透明的功能包括:容灾、读写分离、分库分表、资源管理、资源调度、资源隔离、数据安全。

学习通大数据技术原理与应用

随着大数据时代的到来,数据分析和挖掘的需求越来越强烈。而大数据技术作为解决方案,已经逐渐成为现代企业必须掌握的技能之一。因此,在大数据领域,学习通大数据技术原理与应用,已经成为越来越多人的选择。

1. 大数据技术的重要性

大数据技术包括了一系列的技术和工具,如数据的采集、清洗、存储、分析、可视化等。这些技术的应用,可以帮助企业在数据中挖掘出隐藏的价值,从而发现潜在的商业机会。

同时,大数据技术的应用,也可以帮助企业在互联网时代中更好地应对竞争。通过对大数据的分析,企业可以更好地了解客户的需求和行为,从而提供更好的服务和产品,增加客户满意度和忠诚度。

2. 学习通大数据技术原理与应用的优势

学习通大数据技术原理与应用,由阿里云、清华大学等权威机构联合打造。该课程包括了从大数据基础知识到大数据架构设计等完整的课程内容,具有以下优势:

  • 课程质量高:课程内容由业内专家和知名学者组成的团队编写,内容丰富、深入、实用。
  • 学习便捷:学习通大数据技术原理与应用课程采用在线教学的方式,可以随时随地学习,方便快捷。
  • 证书认可度高:学习通大数据技术原理与应用课程获得了阿里云认证,证书认可度高,对于求职和职业发展有很大帮助。

3. 大数据技术的应用实例

大数据技术在各个行业中都有广泛的应用,下面列举几个典型的应用实例:

3.1 电商行业

电商行业是大数据技术应用的一个典型例子。通过对用户的浏览、购物、支付等行为进行大数据分析,电商企业可以更好地了解用户的需求和购物习惯,从而提供更好的服务和产品。

例如,在京东的大数据中心中,可以追踪每一个用户的行为,了解用户的兴趣、喜好,从而实现个性化推荐和营销。

3.2 医疗行业

医疗行业也是大数据技术应用的一个重要领域。通过对医疗数据的分析,可以帮助医生更好地了解病人的病情和治疗效果,从而提高医疗质量。

例如,在阿里健康的大数据平台中,可以将海量的医疗数据进行整合和分析,帮助医生更好地判断病情和制定治疗方案。

3.3 金融行业

金融行业是大数据技术应用的另一个重要领域。通过对金融数据的分析,可以帮助银行更好地了解客户的风险和信用状况,从而降低风险和提高盈利能力。

例如,在工商银行的大数据平台中,可以对客户的信用记录、资产状况等数据进行分析,从而更好地判断客户的信用等级和风险。

4. 总结

学习通大数据技术原理与应用课程,可以帮助我们掌握大数据技术的基础知识和应用技巧,从而更好地应对大数据时代的挑战。同时,大数据技术的应用也在各个行业中得到了广泛的应用,为企业的发展提供了强有力的支持。