mooc大数据应用导论课后答案(mooc2023课后作业答案)

mooc大数据应用导论课后答案(mooc2023课后作业答案)

第1讲 大数据概述

第1讲大数据概述章节单元测验

1、大数第三次信息化浪潮的用导业答标志是:
A、个人电脑的论课普及
B、互联网的后答后作普及
C、云计算、案m案大数据、大数物联网技术的用导业答普及
D、虚拟现实技术的论课普及

2、就数据的后答后作量级而言,1PB数据是案m案多少TB?
A、512
B、大数1024
C、用导业答1000
D、论课2048

3、后答后作以下关于云计算、案m案大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析

4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL

5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm

6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala

7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel

8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4

9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段

10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期

11、大数据的4V特性包括:
A、数据量大
B、数据新颖
C、数据类型繁多
D、处理速度快
E、价值密度低

12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了四种范式,具体包括:
A、猜想科学
B、实验科学
C、理论科学
D、计算科学
E、数据密集型科学

13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果

14、大数据的四种主要计算模式包括:
A、批处理计算
B、流计算
C、框计算
D、图计算
E、查询分析计算

15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS

开放讨论

1、试述大数据时代的“数据爆炸特性”。

2、试例举身边利用大数据解决社会生活问题的实例。

3、试述大数据对思维方式的重要影响。

第2讲 大数据处理架构Hadoop

大数据处理架构Hadoop单元测验

1、YARN组件出现在Hadoop的哪个版本中
A、Hadoop2.0
B、Hadoop1.0
C、Hadoop0.21
D、Hadoop0.22

2、以下对Hadoop的说法错误的是
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

3、在Hadoop的组件中,属于数据仓库的是
A、MapReduce
B、Pig
C、Hive
D、HBase

4、以下名词解释不正确的是
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

5、Hadoop的创始人是
A、Doug Lee
B、Doug Cutting
C、Larry Page
D、Shawn Fanning

6、以下哪些组件是Hadoop的生态系统的组件
A、MapReduce
B、HDFS
C、Oracle
D、HBase

7、下列属于Hadoop特性的是
A、高可靠性
B、高可扩展性
C、高成本性
D、高容错性

第3讲 分布式文件系统HDFS

分布式文件系统HDFS单元测验

1、HDFS的命名空间不包含
A、目录
B、文件
C、块
D、字节

2、对HDFS通信协议的理解错误的是
A、HDFS通信协议都是构建在IoT协议基础之上的
B、名称节点和数据节点之间则使用数据节点协议进行交互
C、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

3、采用多副本冗余存储的优势不包含
A、加快数据传输速度
B、节约存储空间
C、容易检查数据错误
D、保证数据可靠性

4、假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是
A、start-hdfs.sh,stop-hdfs.sh
B、start-dfs.sh,stop-dfs.sh
C、start-dfs.sh,stop-hdfs.sh
D、start-hdfs.sh,stop-dfs.sh

5、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫
A、名称节点,数据节点
B、数据节点,名称节点
C、名称节点,主节点
D、从节点,主节点

6、下面关于分布式文件系统HDFS的描述正确的是:
A、分布式文件系统HDFS是一种关系型数据库
B、分布式文件系统HDFS是Google Bigtable的一种开源实现
C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
D、分布式文件系统HDFS比较适合存储大量零碎的小文件

7、以下对名称节点理解正确的是
A、名称节点通常用来保存元数据
B、名称节点的数据保存在内存中
C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D、名称节点用来负责具体用户数据的存储

8、以下对数据节点理解正确的是
A、数据节点用来存储具体的文件内容
B、数据节点的数据保存在磁盘中
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点通常只有一个

9、HDFS只设置唯一一个名称节点带来的局限性包括
A、性能的瓶颈
B、命名空间的限制
C、隔离问题
D、集群的可用性

10、以下HDFS相关的shell命令不正确的是
A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息
B、hadoop dfs mkdir <path>:创建<path>指定的文件夹
C、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中
D、hdfs dfs -rm <path>:删除路径<path>指定的文件

分布式文件系统HDFS单元作业

1、请简述第二名称节点的作用

第4讲 分布式数据库HBase

分布式数据库HBase单元测验

1、HBase是一种 数据库
A、行式数据库
B、列式数据库
C、文档数据库
D、关系数据库

2、下列对HBase数据模型的描述错误的是
A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列
C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
D、每个HBase表都由若干行组成,每个行由行键(row key)来标识

3、下列说法正确的是
A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器
B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等。
C、如果不启动Hadoop,则HBase完全无法使用
D、如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据。

4、对于HBase数据库而言,每个Region的建议最佳大小是
A、100MB-200MB
B、500MB-1000MB
C、1GB-2GB
D、2GB-4GB

5、HBase三层结构的顺序是
A、Zookeeper文件,.MEATA.表,-ROOT-表
B、Zookeeper文件,-ROOT-表,.MEATA.表
C、-ROOT-表,Zookeeper文件,.MEATA.表
D、.MEATA.表,Zookeeper文件,-ROOT-表

6、客户端是通过 级寻址来定位Region
A、一
B、二
C、三
D、四

7、关于HBase Shell命令解释错误的是
A、create:创建表
B、list:显示表的所有数据
C、put:向表、行、列指定的单元格添加数据
D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

8、下列不属于HBase的访问接口的是
A、HBase Shell
B、Thtift Gateway
C、Pig
D、GPI

9、HBase是一个稀疏、多维度、排序的映射表,不属于这张表的索引是
A、行键
B、列族
C、时间戳
D、单元格

10、下列对HBase的理解正确的是
A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
B、HBase是针对谷歌BigTable的开源实现
C、HBase多用于存储非结构化和半结构化的松散数据
D、HBase是一种关系型数据库,现成功应用于互联网服务领域

11、HBase和传统关系型数据库的区别在于哪些方面:
A、数据模型
B、数据操作
C、存储模式
D、数据索引
E、数据维护
F、可伸缩性

12、访问HBase表中的行,有哪些方式
A、通过单个行健访问
B、通过一个行健的区间来访问
C、全表扫描
D、通过某列的值区间

分布式数据库HBase单元作业

1、在HBase中,每个Region服务器维护一个HLog,而不是为每个Region都单独维护一个HLog。请说明这种做法的优点和缺点。

第5讲 NoSQL数据库

NoSQL数据库单元测验

1、下列关于NoSQL数据库和关系型数据库的比较,不正确的是
A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性
B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
C、NoSQL数据库的可扩展性比传统的关系型数据库更好
D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

2、以下对各类数据库的理解错误的是
A、HBase数据库是列族数据库,可扩展性强,支持事务一致性
B、文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中
C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

3、下列数据库属于文档数据库的是
A、MySQL
B、HBase
C、Redis
D、MongoDB

4、NoSQL数据库的三大理论基石不包括
A、CAP
B、BASE
C、最终一致性
D、ACID

5、关于NoSQL数据库和关系数据库,下列说法正确的是:
A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
C、大多数NoSQL数据库很难实现数据完整性
D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

6、NoSQL数据库的类型包括
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

7、CAP是指
A、一致性
B、可用性
C、持久性
D、分区容忍性

8、NoSQL数据库的BASE特性是指
A、基本可用
B、软状态
C、最终一致性
D、持续性

9、目前,NoSQL的含义是“Not only SQL”,而不是“No SQL”。

10、一个数据库事务具有ACID是指:原子性,一致性,持久性,隔离性。

第6讲 云数据库

云数据库单元测验

1、下列Amazon的云数据库属于关系数据库的是
A、Amazon SimpleDB
B、Amazon RDS
C、Amazon DynamoDB
D、Amazon Redshift

2、下列关于UMP系统的说法不正确的是
A、UMP系统是低成本和高性能的MySQL云数据库方案
B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能
C、Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例
D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

3、UMP依赖的开源组件包括
A、Mnesia
B、LVS
C、RabbitMQ
D、ZooKeeper

4、在UMP系统中,Zookeeper主要发挥的作用包括
A、作为全局的配置服务器
B、提供分布式锁,选出一个集群的“总管”
C、监控所有MySQL实例
D、负责集群负载均衡

5、UMP系统设计了哪些机制来保证数据安全
A、SSL数据库连接
B、记录用户操作日志
C、数据访问IP白名单
D、SQL拦截

6、UMP系统通过多个组件的协同作业,实现对用户透明的功能包括:容灾、读写分离、分库分表、资源管理、资源调度、资源隔离、数据安全。

第7讲 MapReduce

MapReduce单元测验

1、下列说法错误的是
A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
C、Map函数将输入的元素转换成<key,value>形式的键值对
D、不同的Map任务之间不能互相通信

2、在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A、<"hello",1,1>、<"hadoop",1>和<"world",1>
B、<"hello",2>、<"hadoop",1>和<"world",1>
C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>
D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

3、对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是
A、<"hello",1,1><"hadoop",1><"world",1>
B、<"hello",2><"hadoop",1><"world",1>
C、<"hello",<1,1>><"hadoop",1><"world",1>
D、<"hello",1><"hello",1><"hadoop",1><"world",1>

4、下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是
A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C、前者相比后者学习起来更难
D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

5、MapReduce体系结构主要由哪几个部分组成
A、Client
B、JobTracker
C、TaskTracker
D、Task

6、MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。

7、两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>

8、MapReduce采用 策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片,这些分片可以被多个Map任务并行处理。

9、所谓 过程,是指对Map输出结果进行分区、排序、合并等处理,并交给Reduce的过程。

第8讲 数据仓库Hive

数据仓库Hive单元测验

1、下列有关Hive和Impala的对比错误的是
A、Hive与Impala使用相同的元数据
B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
C、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
D、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

2、下列关于Hive基本操作命令的解释错误的是
A、create database userdb;//创建数据库userdb
B、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

3、下列说法正确的是
A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储
B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D、HiveQL语法与传统的SQL语法很相似

4、Impala主要由哪几个部分组成
A、Impalad
B、State Store
C、CLI
D、Hive

5、以下属于Hive的基本数据类型是
A、TINYINT
B、FLOAT
C、STRING
D、BINARY

第9讲 Hadoop再探讨

Hadoop再探讨单元测验

1、下列说法正确的是
A、第二名称节点无法解决单点故障问题
B、第二名称节点是热备份
C、HDFS HA提供高可用性,可以实现可扩展性、系统性能和隔离性
D、HDFS HA可用性不好

2、HDFS Federation设计不能解决“单名称节点”存在的哪个问题
A、HDFS集群扩展性
B、性能更高效
C、良好的隔离性
D、单点故障问题

3、下列哪些是Hadoop1.0存在的问题
A、抽象层次低
B、表达能力有限
C、开发者自己管理作业之间的依赖关系
D、执行迭代操作效率低

4、下列对Hadoop各组件的理解正确的是
A、Pig:处理大规模数据的脚本语言
B、Tez:支持DAG作业的计算框架
C、Oozie:工作流和协作服务引擎
D、Kafka:分布式发布订阅消息系统

5、对新一代资源管理调度框架YARN的理解正确的是
A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架
B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster
C、YARN既是资源管理调度框架,也是一个计算框架
D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务

6、HDFS HA(High Availability)是为了解决单点故障问题。

7、在HDFS Federation(HDFS联邦)中,设计了多个相互独立的名称节点,使得HDFS的命名服务能够水平扩展。

8、相对于Hadoop1.0而言,Hadoop2.0主要增加了HDFS HA和HDFS Federation(联邦)等特性。

第10讲 Spark

Spark单元测验

1、Spark SQL目前暂时不支持下列哪种语言
A、Scala
B、Java
C、Python
D、Matlab

2、RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是
A、map
B、filter
C、groupBy
D、count

3、下列说法错误的是
A、Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
B、在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm
C、RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换
D、RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

4、下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是
A、count():返回数据集中的元素个数
B、filter(func):筛选出满足函数func的元素,并返回一个新的数据集
C、take(n):返回数据集中的第n个元素
D、map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集

5、下列大数据类型与其对应的软件框架不适应的是
A、复杂的批量数据处理:MapReduce
B、基于历史数据的交互式查询:Impala
C、基于实时数据流的数据处理:Storm
D、图结构数据的计算:Hive

6、Apache软件基金会最重要的三大分布式计算系统开源项目包括
A、Hadoop
B、Spark
C、Storm
D、MapReduce

7、Spark的主要特点包括
A、运行速度快
B、容易使用
C、通用性好
D、运行模式多样

8、下列关于Scala的说法正确的是
A、Scala是一种多范式编程语言
B、Scala运行于Java平台,兼容现有的Java程序
C、Scala具备强大的并发性,支持函数式编程
D、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

9、Spark的运行架构包括
A、集群资源管理器 Cluster Manager
B、运行作业任务的工作节点 Worker Node
C、每个应用的任务控制节点 Driver
D、每个工作节点上负责具体任务的执行进程 Executor

10、RDD,中文全称是 ,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。

第11讲 流计算

流计算单元测验

1、流计算秉承一个基本理念,即数据的价值随着时间的流逝而 ,如用户点击流。
A、降低
B、升高
C、不变
D、不确定

2、Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做 。
A、Topology
B、Bolt
C、Tuple
D、Spout

3、对于一个流计算系统来说,它应达到如下哪些需求
A、高性能
B、海量式
C、实时性
D、分布式
E、可靠性

4、数据采集系统的基本架构包括哪些部分
A、Agent
B、Collector
C、Store
D、Controller

5、以下哪些是开源的流计算框架
A、Yahoo! S4
B、Twitter Storm
C、Facebook Puma
D、IBM InfoSphere Streams

6、Storm中的Stream Groupings有哪几种方式
A、随机分组
B、按照字段分组
C、广播发送
D、全局分组
E、不分组
F、直接分组

7、Spark Streaming和Storm最大的区别在于:Spark Streaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应。

8、流计算处理过程一般包含三个阶段: ,数据实时计算和实时查询服务。

9、Spark Streaming最主要的抽象是 ,中文全称是离散化数据流,表示连续不断的数据流。

10、Storm的流数据单位是 ,Spark Streaming的流数据单位是DStream,Samza的流数据单位是消息。

第12讲 图计算

图计算单元测验

1、Pregel是一种基于 模型实现的并行图处理系统
A、BSP
B、TSP
C、SBP
D、STP

2、谷歌在后Hadoop时代的新“三驾马车”不包括
A、Caffeine
B、Dremel
C、Hama
D、Pregel

3、下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架
A、Pregel
B、Hama
C、Giraph
D、Neo4j

4、以下关于Pregel图计算框架说法正确的是
A、通常只对满足交换律和结合律的操作才会开启Combiner功能
B、Aggregator提供了一种全局通信、监控和数据查看的机制
C、Pregel采用检查点机制来实现容错
D、对于全局拓扑改变,Pregel采用了惰性协调机制

5、Hama是Google Pregel的开源实现,是在HDFS上实现的BSP计算框架,弥补Hadoop在计算能力上的不足。

6、Pregel的计算过程是由一系列被称为 的迭代组成的。

7、Pregel图计算框架的顶点通讯是通过 来实现的。

第13讲 大数据在不同领域的应用

大数据在不同领域的应用单元测验

1、下列说法错误的是
A、UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
C、UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化
D、基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法

2、推荐方法包括哪些类型
A、专家推荐
B、基于统计的推荐
C、基于内容的推荐
D、协同过滤推荐
E、混合推荐

3、协同过滤可分为基于用户的协同过滤(UserCF)和基于物品的协同过滤(ItemCF)。

4、一个完整的推荐系统通常包括3个组成模块:用户建模模块、推荐对象建模模块、 模块

5、是自动联系用户和物品的一种工具,和搜索引擎相比,其通过研究用户的兴趣偏好,进行个性化计算。

大数据技术原理与应用期末测试

大数据技术原理与应用期末测试

1、数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、数据流阶段

2、第三次信息化浪潮的发生标志是以下哪种技术的普及
A、个人计算机
B、互联网
C、物联网、云计算和大数据
D、CPU

3、1TB = ( )MB
A、2^20(备注:2的20次方)
B、2^10(备注:2的10次方)
C、1000
D、1024

4、Hadoop的两大核心是 和
A、HDFS; MapReduce
B、HDFS; HBase
C、MapReduce; HBase
D、GFS; MapReduce

5、HDFS默认的一个块大小是
A、64MB
B、8KB
C、16KB
D、32KB

6、在分布式文件系统HDFS中, 负责数据的存储和读取
A、数据节点
B、主节点
C、名称节点
D、第二名称节点

7、上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是
A、hdfs dfs -put file.txt /path
B、hadoop dfs -put /path file.txt
C、hdfs dfs -put /path file.txt
D、hdfs fs -put file.txt /path

8、下列不属于HDFS体系结构局限性的是
A、命名空间受限
B、系统吞吐量受限于数据节点
C、无法对不同应用程序进行隔离
D、名称节点发生故障,则整个集群不可用

9、下列有关HBase的说法正确的是
A、HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库
B、HBase是一种NoSQL数据库
C、在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库
D、HBase数据库表可以设置该表任意列作为索引

10、已知一张表student存储在HBase中,向表中插入一条记录{ id:2015001,name:Mary,{ score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是
A、put 'student','2015001','score:math','88'
B、put 'student','2015001','88'
C、put 'student','2015001','math','88'
D、put 'student','score:math','88'

11、NoSQL数据库的三大理论基石不包括
A、CAP
B、BASE
C、最终一致性
D、ACID

12、在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作)
A、<"hello",1,1>、<"bigdata",1>和<"hadoop",1>
B、<"hello",2>、<"bigdata",1>和<"hadoop",1>
C、<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>
D、<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>

13、假设已经配置好PATH环境变量,启动hadoop的命令是
A、start-dfs.sh
B、start-hadoop.sh
C、start-fs.sh
D、start-hdfs.sh

14、下列说法错误的是
A、第二名称节点无法解决单点故障问题
B、HDFS HA可以解决单点故障问题
C、第二名称节点是热备份,而HDFS HA不是热备份
D、HDFS Federation使得HDFS的命名服务能够水平扩展

15、RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是
A、map
B、join
C、collect
D、groupBy

16、下列关于Hive的说法正确的是
A、Hive支持频繁数据更新
B、Hive的可扩展性差
C、Hive不支持索引
D、Hive支持批量导入

17、大数据的特点包括
A、数据量大
B、数据种类繁多
C、处理速度快
D、价值密度低

18、下列适用于批处理计算的框架有哪些
A、MapReduce
B、Spark
C、Storm
D、Pregel

19、下列适用于流计算的框架有哪些
A、Storm
B、Spark Streaming
C、Pregel
D、Dremel

20、下列适用于图计算的框架有哪些
A、Pregel
B、GraphX
C、Hama
D、Impala

21、从技术架构上来看,物联网可以分为哪几层
A、感知层
B、网络层
C、处理层
D、应用层

22、HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据
A、行键
B、列族
C、列限定符
D、时间戳

23、典型的NoSQL数据库的类型包括
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

24、CAP是指
A、一致性
B、可用性
C、持久性
D、分区容忍性

25、云计算主要包括哪3种类型
A、IaaS
B、PaaS
C、SaaS
D、CaaS

26、以下属于流计算的应用有哪些
A、购物网站的广告推荐
B、数据仓库数据批处理分析
C、实时交通路线推荐
D、根据过去一年购物记录判断用户的消费能力

27、下列关于图计算说法正确的是
A、当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突
B、传统的图计算框架通常表现出比较好的内存访问局部性
C、Pregel是一种基于BSP模型实现的并行图处理系统
D、在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变。

28、下列哪些是图计算框架Pregel的应用
A、单源最短路径
B、二分匹配
C、PageRank
D、流数据处理

29、关于Spark的特性说法正确的是
A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
C、Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
D、Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活

30、BASE的基本含义是
A、基本可用
B、软状态
C、最终一致性
D、持续性

31、Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

32、HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

33、在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

34、HDFS可以高效存储大量的小文件。

35、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

36、第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

37、HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

38、NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

39、传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

40、MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

41、Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据。

42、协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

43、Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。