0.1024

五煦查题

快速找到你需要的那道考题与答案

mooc大数据技术原理与应用_2课后答案(慕课2023课后作业答案)

81 min read

mooc大数据技术原理与应用_2课后答案(慕课2023课后作业答案)

第1章 大数据概述

第1章 大数据概述 单元测验

1、大数第三次信息化浪潮的据技标志是:
A、个人电脑的术原普及
B、互联网的用课业答普及
C、云计算、后答后作大数据、案慕案物联网技术的课课普及
D、虚拟现实技术的大数普及

2、就数据的据技量级而言,1PB数据是术原多少TB?
A、512
B、用课业答1024
C、后答后作1000
D、案慕案2048

3、课课以下关于云计算、大数大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析

4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL

5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm

6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala

7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel

8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4

9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段

10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期

11、大数据的特性包括:
A、数据量大
B、数据类型繁多
C、处理速度快
D、价值密度低

12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:
A、实验科学
B、理论科学
C、计算科学
D、数据密集型科学

13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果

14、大数据主要有哪几种计算模式:
A、批处理计算
B、流计算
C、图计算
D、查询分析计算

15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS

第2章 大数据处理架构Hadoop

第2章 大数据处理架构Hadoop 单元测验

1、启动hadoop所有进程的命令是:
A、start-dfs.sh
B、start-hadoop.sh
C、start-all.sh
D、start-hdfs.sh

2、以下对Hadoop的说法错误的是:
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

3、以下哪个不是Hadoop的特性:
A、高容错性
B、高可靠性
C、成本高
D、支持多种编程语言

4、以下名词解释不正确的是:
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

5、以下哪些组件是Hadoop的生态系统的组件:
A、MapReduce
B、HDFS
C、Oracle
D、HBase

6、以下哪个命令可以用来操作HDFS文件:
A、hadoop fs
B、hdfs dfs
C、hadoop dfs
D、hdfs fs

第3章 分布式文件系统HDFS

第3章 分布式文件系统HDFS 单元测验

1、HDFS的命名空间不包含:
A、目录
B、文件
C、块
D、字节

2、对HDFS通信协议的理解错误的是:
A、HDFS通信协议都是构建在IoT协议基础之上的
B、名称节点和数据节点之间则使用数据节点协议进行交互
C、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
D、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互

3、采用多副本冗余存储的优势不包含:
A、加快数据传输速度
B、节约存储空间
C、容易检查数据错误
D、保证数据可靠性

4、假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:
A、start-hdfs.sh,stop-hdfs.sh
B、start-dfs.sh,stop-dfs.sh
C、start-dfs.sh,stop-hdfs.sh
D、start-hdfs.sh,stop-dfs.sh

5、分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫 :
A、名称节点,数据节点
B、数据节点,名称节点
C、名称节点,主节点
D、从节点,主节点

6、下面关于分布式文件系统HDFS的描述正确的是:
A、分布式文件系统HDFS是一种关系型数据库
B、分布式文件系统HDFS是Google Bigtable的一种开源实现
C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
D、分布式文件系统HDFS比较适合存储大量零碎的小文件

7、以下对名称节点理解正确的是:
A、名称节点通常用来保存元数据
B、名称节点的数据保存在内存中
C、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D、名称节点用来负责具体用户数据的存储

8、以下对数据节点理解正确的是:
A、数据节点用来存储具体的文件内容
B、数据节点的数据保存在磁盘中
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点通常只有一个

9、HDFS只设置唯一一个名称节点带来的局限性包括:
A、性能的瓶颈
B、命名空间的限制
C、隔离问题
D、集群的可用性

10、以下HDFS相关的shell命令不正确的是:
A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息
B、hadoop dfs mkdir <path>:创建<path>指定的文件夹
C、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中
D、hdfs dfs -rm <path>:删除路径<path>指定的文件

第4章 分布式数据库HBase

第4章 分布式数据库HBase单元测验

1、HBase是一种 数据库
A、行式数据库
B、列式数据库
C、文档数据库
D、关系数据库

2、下列对HBase数据模型的描述错误的是:
A、HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
B、HBase列族支持动态扩展,可以很轻松地添加一个列族或列
C、HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
D、每个HBase表都由若干行组成,每个行由行键(row key)来标识

3、下列说法正确的是:
A、HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器
B、Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等
C、如果不启动Hadoop,则HBase完全无法使用
D、如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据

4、在HBase数据库中,每个Region的建议最佳大小是:
A、100MB-200MB
B、500MB-1000MB
C、1GB-2GB
D、2GB-4GB

5、HBase三层结构的顺序是:
A、Zookeeper文件,.MEATA.表,-ROOT-表
B、Zookeeper文件,-ROOT-表,.MEATA.表
C、-ROOT-表,Zookeeper文件,.MEATA.表
D、.MEATA.表,Zookeeper文件,-ROOT-表

6、客户端是通过 级寻址来定位Region:
A、一
B、二
C、三
D、四

7、关于HBase Shell命令解释错误的是:
A、create:创建表
B、list:显示表的所有数据
C、put:向表、行、列指定的单元格添加数据
D、get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

8、下列对HBase的理解正确的是:
A、HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件
B、HBase是针对谷歌BigTable的开源实现
C、HBase多用于存储非结构化和半结构化的松散数据
D、HBase是一种关系型数据库,现成功应用于互联网服务领域

9、HBase和传统关系型数据库的区别在于哪些方面:
A、数据模型
B、数据操作
C、存储模式
D、数据索引

10、访问HBase表中的行,有哪些方式:
A、通过单个行健访问
B、通过一个行健的区间来访问
C、全表扫描
D、通过某列的值区间

第5章 NoSQL数据库

第5章 NoSQL数据库 单元测验

1、下列关于NoSQL数据库和关系型数据库的比较,不正确的是:
A、NoSQL数据库具有弱一致性,关系型数据库具有强一致性
B、NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
C、NoSQL数据库的可扩展性比传统的关系型数据库更好
D、NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

2、以下对各类数据库的理解错误的是:
A、HBase数据库是列族数据库,可扩展性强,支持事务一致性
B、文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中
C、键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
D、图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱

3、下列数据库属于文档数据库的是:
A、MySQL
B、HBase
C、Redis
D、MongoDB

4、NoSQL数据库的三大理论基石不包括:
A、CAP
B、BASE
C、最终一致性
D、ACID

5、关于NoSQL数据库和关系数据库,下列说法正确的是:
A、关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
B、NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
C、大多数NoSQL数据库很难实现数据完整性
D、NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库

6、NoSQL数据库的类型包括:
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

7、CAP是指:
A、一致性
B、可用性
C、持久性
D、分区容忍性

8、NoSQL数据库的BASE特性是指:
A、基本可用
B、软状态
C、最终一致性
D、持续性

第6章 云数据库

第6章 云数据库 单元测验

1、下列Amazon的云数据库属于关系数据库的是:
A、Amazon SimpleDB
B、Amazon RDS
C、Amazon DynamoDB
D、Amazon Redshift

2、下列关于UMP系统的说法不正确的是:
A、UMP系统是低成本和高性能的MySQL云数据库方案
B、Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能
C、Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例
D、Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务

3、UMP依赖的开源组件包括:
A、Mnesia
B、LVS
C、RabbitMQ
D、ZooKeeper

4、在UMP系统中,Zookeeper主要发挥的作用包括:
A、作为全局的配置服务器
B、提供分布式锁,选出一个集群的“总管”
C、监控所有MySQL实例
D、负责集群负载均衡

5、UMP系统设计了哪些机制来保证数据安全:
A、SSL数据库连接
B、记录用户操作日志
C、数据访问IP白名单
D、SQL拦截

第7章 MapReduce

第7章 MapReduce 单元测验

1、下列说法错误的是:
A、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
B、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
C、Map函数将输入的元素转换成<key,value>形式的键值对
D、不同的Map任务之间不能互相通信

2、在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:
A、<"hello",1,1>、<"hadoop",1>和<"world",1>
B、<"hello",2>、<"hadoop",1>和<"world",1>
C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>
D、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>

3、对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:
A、<"hello",1,1><"hadoop",1><"world",1>
B、<"hello",2><"hadoop",1><"world",1>
C、<"hello",<1,1>><"hadoop",1><"world",1>
D、<"hello",1><"hello",1><"hadoop",1><"world",1>

4、下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:
A、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C、前者相比后者学习起来更难
D、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型

5、MapReduce1.0的体系结构主要由哪几个部分组成:
A、Client
B、JobTracker
C、TaskTracker
D、Task

第8章 Hadoop再探讨

第8章 Hadoop再探讨 单元测验

1、下列说法正确的是:
A、第二名称节点无法解决单点故障问题
B、第二名称节点是热备份
C、HDFS HA提供高可用性,可以实现可扩展性、系统性能和隔离性
D、HDFS HA可用性不好

2、HDFS Federation设计不能解决“单名称节点”存在的哪个问题:
A、HDFS集群扩展性
B、性能更高效
C、良好的隔离性
D、单点故障问题

3、下列哪些是Hadoop1.0存在的问题:
A、抽象层次低
B、表达能力有限
C、开发者自己管理作业之间的依赖关系
D、执行迭代操作效率低

4、下列对Hadoop各组件的理解正确的是:
A、Pig:处理大规模数据的脚本语言
B、Tez:支持DAG作业的计算框架
C、Oozie:工作流和协作服务引擎
D、Kafka:分布式发布订阅消息系统

5、对新一代资源管理调度框架YARN的理解正确的是:
A、YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架
B、YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster
C、YARN既是资源管理调度框架,也是一个计算框架
D、MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务

第9章 数据仓库Hive

第9章 数据仓库Hive 单元测验

1、下列有关Hive和Impala的对比错误的是:
A、Hive与Impala使用相同的元数据
B、Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
C、Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
D、Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

2、下列关于Hive基本操作命令的解释错误的是:
A、create database userdb;//创建数据库userdb
B、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表
D、insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据

3、下列说法正确的是:
A、数据仓库Hive不需要借助于HDFS就可以完成数据的存储
B、Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
C、Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
D、HiveQL语法与传统的SQL语法很相似

4、Impala主要由哪几个部分组成:
A、Impalad
B、State Store
C、CLI
D、Hive

5、以下属于Hive的基本数据类型是:
A、TINYINT
B、FLOAT
C、STRING
D、BINARY

第10章 Spark

第10章 Spark 单元测验

1、Spark SQL目前暂时不支持下列哪种语言:
A、Scala
B、Java
C、Python
D、Lisp

2、RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:
A、map
B、filter
C、groupBy
D、count

3、下列说法错误的是:
A、Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARN
B、在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架Storm
C、RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换
D、RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算

4、下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:
A、count():返回数据集中的元素个数
B、filter(func):筛选出满足函数func的元素,并返回一个新的数据集
C、take(n):返回数据集中的第n个元素
D、map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集

5、下列大数据处理类型与其对应的软件框架不匹配的是:
A、复杂的批量数据处理:MapReduce
B、基于历史数据的交互式查询:Impala
C、基于实时数据流的数据处理:Storm
D、图结构数据的计算:Hive

6、Apache软件基金会最重要的三大分布式计算系统开源项目包括:
A、Hadoop
B、Spark
C、Storm
D、Oracle

7、Spark的主要特点包括:
A、运行速度快
B、容易使用
C、通用性好
D、运行模式多样

8、下列关于Scala的说法正确的是:
A、Scala是一种多范式编程语言
B、Scala运行于Java平台,兼容现有的Java程序
C、Scala具备强大的并发性,支持函数式编程
D、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

9、Spark的运行架构包括:
A、集群资源管理器 Cluster Manager
B、运行作业任务的工作节点 Worker Node
C、每个应用的任务控制节点 Driver
D、每个工作节点上负责具体任务的执行进程 Executor

第11章 流计算

第11章 流计算 单元测验

1、流计算秉承一个基本理念,即数据的价值随着时间的流逝而 ,如用户点击流:
A、降低
B、升高
C、不变
D、不确定

2、Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做
A、Topology
B、Bolt
C、Tuple
D、Spout

3、对于一个流计算系统来说,它应达到如下哪些需求:
A、高性能
B、海量式
C、实时性
D、分布式

4、数据采集系统的基本架构包括哪些部分:
A、Agent
B、Collector
C、Store
D、Controller

5、以下哪些是开源的流计算框架:
A、Yahoo! S4
B、Twitter Storm
C、Facebook Puma
D、IBM InfoSphere Streams

6、下面哪几个属于Storm中的Stream Groupings的分组方式:
A、随机分组
B、按照字段分组
C、广播发送
D、全局分组

第12章 Flink

第12章 Flink 单元测验

1、以下哪个不是Flink的优势:
A、同时支持高吞吐、低延迟、高性能
B、同时支持流处理和批处理
C、不支持增量迭代
D、支持有状态计算

2、在Flink中哪个是基于批处理的图计算库:
A、FlinkML
B、Gelly
C、CEP
D、SQL&Table库

3、下面关于Flink的说法正确的是:
A、Flink不是Apache软件基金会的项目
B、Flink可以同时支持实时计算和批量计算
C、Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的
D、Flink是Apache软件基金会的5个最大的大数据项目之一

4、Flink的主要特性包括:
A、批流一体化
B、精密的状态管理
C、事件时间支持
D、精确一次的状态一致性保障

5、下面论述正确的是:
A、流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink可以满足要求
B、Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态
C、Spark Streaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力
D、Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理

6、Flink常见的应用场景包括:
A、事件驱动型应用
B、数据分析应用
C、地图应用
D、数据流水线应用

7、Flink核心组件栈分为哪三层:
A、物理部署层
B、Runtime核心层
C、API&Libraries层
D、Core层

8、Flink有哪几种部署模式:
A、Local模式
B、Standalone集群模式
C、YARN集群模式
D、运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上

9、Flink系统主要由两个组件组成,分别为:
A、JobManager
B、TaskScheduler
C、JobScheduler
D、TaskManager

10、在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:
A、状态化的数据流接口
B、DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)
C、Table API
D、SQL

第13章 图计算

第13章 图计算 单元测验

1、Pregel是一种基于 模型实现的并行图处理系统:
A、BSP
B、TSP
C、SBP
D、STP

2、谷歌在后Hadoop时代的新“三驾马车”不包括:
A、Caffeine
B、Dremel
C、Hama
D、Pregel

3、下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:
A、Pregel
B、Hama
C、Giraph
D、Neo4j

4、以下关于Pregel图计算框架说法正确的是:
A、通常只对满足交换律和结合律的操作才会开启Combiner功能
B、Aggregator提供了一种全局通信、监控和数据查看的机制
C、Pregel采用检查点机制来实现容错
D、对于全局拓扑改变,Pregel采用了惰性协调机制

第14章 大数据在不同领域的应用

第14章 大数据在不同领域的应用 单元测验

1、下列说法错误的是:
A、UserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品
B、ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品
C、UserCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化
D、基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法

2、推荐方法包括哪些类型:
A、专家推荐
B、基于统计的推荐
C、基于内容的推荐
D、协同过滤推荐

大数据技术原理与应用期末考试

大数据技术原理与应用期末试卷

1、数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、数据流阶段

2、第三次信息化浪潮的发生标志是以下哪种技术的普及:
A、个人计算机
B、互联网
C、物联网、云计算和大数据
D、CPU

3、在Flink中哪个是基于批处理的图计算库:
A、FlinkML
B、Gelly
C、CEP
D、SQL&Table库

4、Hadoop的两大核心是 和
A、HDFS; MapReduce
B、HDFS; HBase
C、MapReduce; HBase
D、GFS; MapReduce

5、HDFS默认的一个块大小是
A、64MB
B、8KB
C、16KB
D、32KB

6、在分布式文件系统HDFS中, 负责数据的存储和读取:
A、数据节点
B、主节点
C、名称节点
D、第二名称节点

7、上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:
A、hdfs dfs -put file.txt /path
B、hadoop dfs -put /path file.txt
C、hdfs dfs -put /path file.txt
D、hdfs fs -put file.txt /path

8、在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:
A、hadoop fs -mkdir -p /test/dir
B、hadoop dfs -mkdir /test/dir
C、hdfs fs -mkdir -p /test/dir
D、hdfs dfs *mkdir -p /test/dir

9、下列有关HBase的说法正确的是:
A、HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库
B、HBase是一种NoSQL数据库
C、在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库
D、HBase数据库表可以设置该表任意列作为索引

10、已知一张表student存储在HBase中,向表中插入一条记录{ id:2015001,name:Mary,{ score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:
A、put 'student','2015001','score:math','88'
B、put 'student','2015001','88'
C、put 'student','2015001','math','88'
D、put 'student','score:math','88'

11、NoSQL数据库的三大理论基石不包括:
A、CAP
B、BASE
C、最终一致性
D、ACID

12、在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):
A、<"hello",1,1>、<"bigdata",1>和<"hadoop",1>
B、<"hello",2>、<"bigdata",1>和<"hadoop",1>
C、<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>
D、<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>

13、假设已经配置好PATH环境变量,启动Hadoop的命令是:
A、start-dfs.sh
B、start-hadoop.sh
C、start-fs.sh
D、start-hdfs.sh

14、下列说法错误的是:
A、第二名称节点无法解决单点故障问题
B、HDFS HA可以解决单点故障问题
C、第二名称节点是热备份,而HDFS HA不是热备份
D、HDFS Federation使得HDFS的命名服务能够水平扩展

15、RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:
A、map
B、join
C、collect
D、groupBy

16、下列关于Hive的说法正确的是:
A、Hive支持频繁数据更新
B、Hive的可扩展性差
C、Hive不支持索引
D、Hive支持批量导入

17、大数据的特点包括:
A、数据量大
B、数据种类繁多
C、处理速度快
D、价值密度低

18、下列适用于批处理计算的框架有哪些:
A、MapReduce
B、Spark
C、Storm
D、Pregel

19、下列适用于流计算的框架有哪些:
A、Storm
B、Spark Streaming
C、Pregel
D、Dremel

20、Flink核心组件栈分为哪三层:
A、物理部署层
B、Runtime核心层
C、API&Libraries层
D、Core层

21、从技术架构上来看,物联网可以分为哪几层:
A、感知层
B、网络层
C、处理层
D、应用层

22、HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:
A、行键
B、列族
C、列限定符
D、时间戳

23、典型的NoSQL数据库的类型包括:
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

24、CAP是指:
A、一致性
B、可用性
C、持久性
D、分区容忍性

25、云计算主要包括哪3种类型:
A、IaaS
B、PaaS
C、SaaS
D、CaaS

26、以下属于流计算的应用有哪些:
A、购物网站的广告推荐
B、数据仓库数据批处理分析
C、实时交通路线推荐
D、根据过去一年购物记录判断用户的消费能力

27、下列关于图计算产品Pregel的说法正确的是:
A、当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突
B、传统的图计算框架通常表现出比较好的内存访问局部性
C、Pregel是一种基于BSP模型实现的并行图处理系统
D、在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变

28、下列哪些是图计算框架Pregel的应用:
A、单源最短路径
B、二分匹配
C、PageRank
D、流数据处理

29、关于Spark的特性说法正确的是:
A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
C、Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
D、Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活

30、BASE的基本含义是:
A、基本可用
B、软状态
C、最终一致性
D、持续性

31、Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

32、HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

33、在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

34、HDFS可以高效存储大量的小文件。

35、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

36、第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

37、HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

38、NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

39、传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

40、MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

41、Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据.

42、协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

43、Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。

大数据技术原理与应用期末考试

大数据技术原理与应用期末试卷

1、数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、数据流阶段

2、第三次信息化浪潮的发生标志是以下哪种技术的普及:
A、个人计算机
B、互联网
C、物联网、云计算和大数据
D、CPU

3、在Flink中哪个是基于批处理的图计算库:
A、FlinkML
B、Gelly
C、CEP
D、SQL&Table库

4、Hadoop的两大核心是 和
A、HDFS; MapReduce
B、HDFS; HBase
C、MapReduce; HBase
D、GFS; MapReduce

5、HDFS默认的一个块大小是
A、64MB
B、8KB
C、16KB
D、32KB

6、在分布式文件系统HDFS中, 负责数据的存储和读取:
A、数据节点
B、主节点
C、名称节点
D、第二名称节点

7、上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:
A、hdfs dfs -put file.txt /path
B、hadoop dfs -put /path file.txt
C、hdfs dfs -put /path file.txt
D、hdfs fs -put file.txt /path

8、在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:
A、hadoop fs -mkdir -p /test/dir
B、hadoop dfs -mkdir /test/dir
C、hdfs fs -mkdir -p /test/dir
D、hdfs dfs *mkdir -p /test/dir

9、下列有关HBase的说法正确的是:
A、HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库
B、HBase是一种NoSQL数据库
C、在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库
D、HBase数据库表可以设置该表任意列作为索引

10、已知一张表student存储在HBase中,向表中插入一条记录{ id:2015001,name:Mary,{ score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是:
A、put 'student','2015001','score:math','88'
B、put 'student','2015001','88'
C、put 'student','2015001','math','88'
D、put 'student','score:math','88'

11、NoSQL数据库的三大理论基石不包括:
A、CAP
B、BASE
C、最终一致性
D、ACID

12、在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):
A、<"hello",1,1>、<"bigdata",1>和<"hadoop",1>
B、<"hello",2>、<"bigdata",1>和<"hadoop",1>
C、<"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>
D、<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>

13、假设已经配置好PATH环境变量,启动Hadoop的命令是:
A、start-dfs.sh
B、start-hadoop.sh
C、start-fs.sh
D、start-hdfs.sh

14、下列说法错误的是:
A、第二名称节点无法解决单点故障问题
B、HDFS HA可以解决单点故障问题
C、第二名称节点是热备份,而HDFS HA不是热备份
D、HDFS Federation使得HDFS的命名服务能够水平扩展

15、RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是:
A、map
B、join
C、collect
D、groupBy

16、下列关于Hive的说法正确的是:
A、Hive支持频繁数据更新
B、Hive的可扩展性差
C、Hive不支持索引
D、Hive支持批量导入

17、大数据的特点包括:
A、数据量大
B、数据种类繁多
C、处理速度快
D、价值密度低

18、下列适用于批处理计算的框架有哪些:
A、MapReduce
B、Spark
C、Storm
D、Pregel

19、下列适用于流计算的框架有哪些:
A、Storm
B、Spark Streaming
C、Pregel
D、Dremel

20、Flink核心组件栈分为哪三层:
A、物理部署层
B、Runtime核心层
C、API&Libraries层
D、Core层

21、从技术架构上来看,物联网可以分为哪几层:
A、感知层
B、网络层
C、处理层
D、应用层

22、HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据:
A、行键
B、列族
C、列限定符
D、时间戳

23、典型的NoSQL数据库的类型包括:
A、键值数据库
B、列族数据库
C、文档数据库
D、图数据库

24、CAP是指:
A、一致性
B、可用性
C、持久性
D、分区容忍性

25、云计算主要包括哪3种类型:
A、IaaS
B、PaaS
C、SaaS
D、CaaS

26、以下属于流计算的应用有哪些:
A、购物网站的广告推荐
B、数据仓库数据批处理分析
C、实时交通路线推荐
D、根据过去一年购物记录判断用户的消费能力

27、下列关于图计算产品Pregel的说法正确的是:
A、当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突
B、传统的图计算框架通常表现出比较好的内存访问局部性
C、Pregel是一种基于BSP模型实现的并行图处理系统
D、在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变

28、下列哪些是图计算框架Pregel的应用:
A、单源最短路径
B、二分匹配
C、PageRank
D、流数据处理

29、关于Spark的特性说法正确的是:
A、Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
B、Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高
C、Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
D、Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活

30、BASE的基本含义是:
A、基本可用
B、软状态
C、最终一致性
D、持续性

31、Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

32、HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

33、在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

34、HDFS可以高效存储大量的小文件。

35、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

36、第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

37、HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

38、NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

39、传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

40、MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

41、Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据.

42、协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

43、Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。

中国大学大数据技术原理与应用_2

1. 大数据的定义

大数据是指规模庞大、结构复杂、来源多样,且难以用传统的数据处理技术和工具进行处理和分析的数据集合。它包含了结构化数据、半结构化数据和非结构化数据。大数据的兴起主要是由于互联网和物联网技术的发展,使得数据产生的速度和数量呈指数级增长。

2. 大数据技术的特点

大数据技术主要具有以下几个特点:

  1. 高可扩展性:大数据技术可以根据数据量的增长进行水平扩展,提高性能和处理能力。
  2. 高性能:大数据技术可以通过并行、分布式等方式提高数据处理的效率。
  3. 海量存储:大数据技术可以存储海量的数据,并提供高可靠性和可用性。
  4. 多样化数据处理:大数据技术可以处理各种类型的数据,包括结构化、半结构化和非结构化数据。
  5. 实时数据处理:大数据技术可以快速处理实时数据,实现实时监控和反馈。

3. 大数据技术的应用

大数据技术的应用非常广泛,包括以下几个方面:

  1. 金融行业:大数据技术可以对金融市场进行实时监控和分析,提高风险控制和投资收益。
  2. 医疗行业:大数据技术可以对医疗数据进行分析,提高诊断和治疗的准确性和效率。
  3. 制造业:大数据技术可以对生产过程进行监控和分析,提高生产效率和质量。
  4. 交通运输行业:大数据技术可以对交通流量进行实时监测和管理,提高交通运输效率。
  5. 电商行业:大数据技术可以对用户行为进行分析,提高营销效果和用户体验。

4. 大数据技术的原理

大数据技术主要包括数据采集、数据存储、数据处理和数据可视化等方面。

4.1 数据采集

数据采集是指将各种来源的数据收集到一起进行处理和分析。数据采集主要包括以下几个方面:

  1. 网络爬虫:通过网络爬虫可以从网站上获取数据。
  2. 日志分析:通过对服务器日志、用户行为日志等进行分析,可以获取数据。
  3. 传感器等设备:通过传感器等设备可以获取物联网等领域的数据。

4.2 数据存储

数据存储是指将采集到的数据存储到数据库或分布式文件系统中,以便后续的处理和分析。数据存储主要包括以下几个方面:

  1. 关系型数据库:包括MySQL、Oracle等。
  2. NoSQL数据库:包括MongoDB、Cassandra等。
  3. 分布式文件系统:包括Hadoop FileSystem、Amazon S3等。

4.3 数据处理

数据处理是指对采集到的数据进行清洗、转换、分析等处理过程,以便挖掘数据中的价值和信息。数据处理主要包括以下几个方面:

  1. 数据清洗:包括数据去重、数据填充、数据过滤等。
  2. 数据转换:包括数据格式转换、数据结构转换等。
  3. 数据分析:包括数据统计分析、数据挖掘、机器学习等。

4.4 数据可视化

数据可视化是指将处理后的数据以图形化的方式表达出来,以便用户更直观地了解数据中的信息和价值。数据可视化主要包括以下几个方面:

  1. 图表展示:包括柱状图、饼图、折线图等。
  2. 地理信息展示:包括地图、热力图、散点图等。
  3. 多维数据展示:包括交互式数据透视表、树状图等。

5. 大数据技术的挑战与未来

大数据技术也面临着一些挑战,包括以下几个方面:

  1. 数据安全:大数据涉及到大量敏感数据,如何保证数据的安全性是一个重要的问题。
  2. 数据质量:大数据中可能存在噪音数据、异常数据等,如何保证数据的质量是一个挑战。
  3. 数据分析:大数据中可能存在大量无用数据,如何挖掘出数据中的价值信息是一个挑战。

未来,大数据技术将会更加成熟和普及,应用范围也会更加广泛。同时,人工智能技术的发展也将会促进大数据技术的应用和发展。

6. 总结

大数据技术已经成为了当前信息技术领域的重要发展方向,它具有高可扩展性、高性能、海量存储、多样化数据处理和实时数据处理等特点。大数据技术的应用也非常广泛,包括金融、医疗、制造、交通运输和电商等方面。同时,大数据技术也面临着一些挑战,如数据安全、数据质量和数据分析等。未来,大数据技术将会更加成熟和普及,应用范围也会更加广泛。