超星Hadoop系统开发(梁晶)答案(学习通2023课后作业答案)
52 min read超星Hadoop系统开发(梁晶)答案(学习通2023课后作业答案)
第1章 大数据概述 单元测验
1、超星第三次信息化浪潮的系统学习标志是:
A、个人电脑的梁晶普及
B、互联网的答案普及
C、云计算、通课大数据、后作物联网技术的业答普及
D、虚拟现实技术的超星普及
2、就数据的系统学习量级而言,1PB数据是梁晶多少TB?
A、512
B、答案1024
C、通课1000
D、后作2048
3、业答以下关于云计算、超星大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析
4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL
5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm
6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala
7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel
8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4
9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段
10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期
11、大数据的特性包括:
A、数据量大
B、数据类型繁多
C、处理速度快
D、价值密度低
12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:
A、实验科学
B、理论科学
C、计算科学
D、数据密集型科学
13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果
14、大数据主要有哪几种计算模式:
A、批处理计算
B、流计算
C、图计算
D、查询分析计算
15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS
第一章 大数据基本概念
1、1、大数据的含义是什么?
2、2、数据科学的目标和任务是什么?
3、3、大数据和人工智能是什么关系?
4、4、大数据有哪些特征?
第2章 大数据处理架构Hadoop
第2章 大数据处理架构Hadoop 单元测验
1、启动hadoop所有进程的命令是:
A、start-dfs.sh
B、start-hadoop.sh
C、start-all.sh
D、start-hdfs.sh
2、以下对Hadoop的说法错误的是:
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
3、以下哪个不是Hadoop的特性:
A、高容错性
B、高可靠性
C、成本高
D、支持多种编程语言
4、以下名词解释不正确的是:
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
5、以下哪些组件是Hadoop的生态系统的组件:
A、MapReduce
B、HDFS
C、Oracle
D、HBase
6、以下哪个命令可以用来操作HDFS文件:
A、hadoop fs
B、hdfs dfs
C、hadoop dfs
D、hdfs fs
Hadoop搭建
1、Hadoop搭建需要修改哪些配置文件,各个配置文件的功能是什么?
第3章 分布式文件系统HDFS
编程实现HDFS文件读取
1、编程实现HDFS文件读取
编程实现HDFS文件写入
1、编程实现HDFS文件写入
第4章 MapReduce
用户登录次数统计
1、编程统计user_login.txt中每个用户登录的总次数
按用户登录次数进行排序
1、将上节课用户登录次数统计的结果,按照登录次数从小到大进行排序
统计学生成绩平均分
1、根据书上147页描述,编写数据文件并计算学生成绩平均分
QQ好友推荐
1、根据149页的QQ好友数据,实现QQ好友推荐
自定义键类型
1、根据user_login.txt文件,自定义键类型,统计每人每月登录的总次数
自定义键值二次排序
1、自定义键值二次排序,将user_login.txt按照用户和月份的降序进行排序
Combiner组件
1、在自定义键值的代码中增加Combiner组件
Partitioner组件
1、在自定义键值的代码中增加Partitioner组件,将输出的结果按月份分配到不同文件中
第6章 数据仓库Hive
使用Hive计算成绩平均分
1、使用Hive计算成绩平均分
使用Hive连接学生姓名表和学生成绩表
1、使用Hive连接学生姓名表和学生成绩表
期末测试一
期末测试客观题
1、以下哪个是谷歌三篇大数据论文没有涉及的大数据组件:
A、HDFS
B、HBase
C、MapReduce
D、Yarn
2、Hadoop中,下面哪个进程负责 HDFS 数据存储:
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode
3、HDFS 中的Block 默认保存几个备份。
A、3 份
B、2 份
C、1 份
D、不确定
4、HDFS3.0默认Block Size大小是多少:
A、32MB
B、64MB
C、128MB
D、256MB
5、HDFS具有高容错、高可靠性、高可扩展性、高吞吐率的特征,适合读写的任务是:
A、一次写入,少量读出
B、多次写入,少量读出
C、多次写入,多次读出
D、一次写入,多次读出
6、MapReduce编程模型中Combiner不适宜下列哪个运算:
A、Max
B、Min
C、Count
D、Average
7、下列关于MapReduce说法不正确的是:
A、MapReduce是一种计算框架
B、MapReduce思想来源于google的学术论文
C、MapReduce程序只能用java编写
D、MapReduce隐藏了并行计算的细节,方便使用
8、MapReduce擅长以下哪个领域的计算:
A、离线批处理
B、流式计算
C、内存计算
D、图计算
9、下列关于MapReduce的说法错误的是:
A、MapReduce分为Map和Reduce两个阶段
B、Map阶段由一系列Map任务构成
C、Reduce阶段由一系列Reduce任务构成
D、Map和Reduce阶段没有任何依赖关系
10、Hadoop中执行一个job,如果这个job的输出路径已经存在,那么程序会:
A、没有任何提示,自动覆盖这个输出路径
B、抛出警告,但是能够继续执行
C、抛出一个异常,然后退出
D、自动创建一个新的输出路径
11、Hadoop的运行模式有单机模式、伪分布式模式和_______
12、Hadoop集群搭建过程中,常用的4个配置文件是core-site.xml、_______、mapred-stite.xml和yarn-site.xml。
13、启动Hadoop集群全部进程的命令是_______。
14、停止Hadoop集群全部进程的命令是________
15、为了提高MapReduce作业的工作效率,Hadoop允许用户声明一个________,它是一个运行在Map端的“迷你Reduce”过程。
期末测试二
期末测试测,编程题
1、有一个学生考试成绩的成绩表文件格式如下图所示。该文件每行数据包括两个字段:科目和分数。要求编程求出每个科目成绩的平均分,请将Map端和Reduce端代码分别补充完整。 语文 73 数学 97 英语 21 物理 72 化学 49 生物 69 (1)请补充Map端代码(10分) public class subjectscoreMapper extends Mapper<LongWritable, Text, Text, IntWritable> { protected void map(LongWritable key, Text value,Context context) throws IOException, { } } (2)请补充Reduce端代码(10分) public class subjectscoreReducer extends Reducer<Text, IntWritable, Text, FloatWritable> { protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, { } }
2、有一个统计2014年到2017年气温的文件格式如下图所示。该文件每行数据包括两个字段:日期和气温。 20141119 -0.22 20141120 2.5 20160625 27.44 20160626 26.94 20170213 16.17 20170316 11.5 为了方便统计和计算,设计了自定义的temperatureLog类型,该类型包含了一个记录日期logdate和一个实时温度temperature成员,如下面代码所示。 public class temperatureLog implements WritableComparable<temperatureLog>{ private String logdate; private float temperature public temperatureLog() { super(); } public temperatureLog(String logdate , float temperature){ this.logdate=logdate; this.temperature=temperature; } public String toString() { return this.logdate+"\t"+this.temperature ; } /*此处省略getLogdate和setLogdate方法的实现,下面的代码中可以直接调用*/ /*此处省略getTemperature和setTemperature方法的实现,下面的代码中可以直接调用*/ /*此处省略write 和readFields方法的实现,下面的代码中可以直接调用*/ (1)为了让输出文件中自定义的temperatureLog数据按照日期从近到远排序,即从20171231到20140101排序,请补充完整自定义的temperatureLog类型中的compareTo函数(5分)。 public int compareTo(temperatureLog o) { } } (2)为了将2014到2017这4年的数据分别存储到4个不同文件中,设计了Partitioner函数,,请将下面Partitioner补充完整(10分)。 public class temperaturePartitioner extends Partitioner< temperatureLog, Text> { @Override public int getPartition(temperatureLog key, Text value, int numPartitions) { } }
学习通Hadoop系统开发(梁晶)
众所周知,Hadoop是大数据时代的代表性技术之一,它以其高可扩展性、高性能、高容错性等优良特性,成为了当今大数据处理的首选技术之一。本文主要介绍学习通Hadoop系统开发(梁晶)这门课程,通过对该课程内容的了解,可以更好地了解Hadoop技术。
课程简介
学习通Hadoop系统开发(梁晶)是一门面向Hadoop开发者的高级课程,主要讲解Hadoop生态系统的相关技术,包括Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护、Hadoop生态系统的其他相关技术等内容。
课程内容
学习通Hadoop系统开发(梁晶)的课程内容非常丰富,主要包括以下几个方面:
- Hadoop生态系统入门
- Hadoop的安装与配置
- HDFS的架构与实现
- MapReduce的原理与编程
- Hadoop集群的管理与维护
- Hadoop生态系统的其他相关技术
Hadoop生态系统入门
在学习Hadoop之前,需要先了解Hadoop生态系统的相关技术。该课程从Hadoop生态系统的概念入手,介绍了Hadoop的发展历程、Hadoop的核心组件以及Hadoop的应用场景等内容,使学生对Hadoop有一个总体的了解。
Hadoop的安装与配置
Hadoop的安装与配置是学习Hadoop的第一步。该课程详细介绍了Hadoop的各个版本的安装与配置方法,包括单机版、伪分布式版、完全分布式版等。并且,该课程还介绍了Hadoop的配置文件的作用及其相关参数的配置方法。
HDFS的架构与实现
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中最核心的组件之一。该课程介绍了HDFS的架构与实现,包括HDFS的设计思想、NameNode、DataNode、SecondaryNameNode等组件的作用及其工作原理。
MapReduce的原理与编程
MapReduce是Hadoop分布式计算框架,是Hadoop生态系统中另一个核心组件。该课程详细介绍了MapReduce的原理、编程模型、Mapper与Reducer等组件的作用及其工作原理,还演示了MapReduce的实际应用。
Hadoop集群的管理与维护
在实际应用中,Hadoop集群的管理与维护非常重要。该课程介绍了Hadoop集群的管理与维护,包括集群的监控、日志分析、故障处理、安全管理等内容。
Hadoop生态系统的其他相关技术
除了上述内容外,Hadoop生态系统还包括很多其他相关技术,如Hive、Pig、HBase、Zookeeper等。该课程还介绍了这些技术的相关内容,以丰富学习者的知识储备。
课程收获
学习通Hadoop系统开发(梁晶)是一门非常实用的课程,通过该课程的学习,可以让学生全面了解Hadoop生态系统的相关技术,掌握Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护等技术,从而在实际应用中更为熟练地使用Hadoop技术。
总结
学习通Hadoop系统开发(梁晶)是一门非常优秀的课程,对于想要学习Hadoop技术的人来说,是一份非常有价值的资料。通过该课程的学习,可以更好地了解Hadoop技术,提高Hadoop技术的应用能力。
学习通Hadoop系统开发(梁晶)
众所周知,Hadoop是大数据时代的代表性技术之一,它以其高可扩展性、高性能、高容错性等优良特性,成为了当今大数据处理的首选技术之一。本文主要介绍学习通Hadoop系统开发(梁晶)这门课程,通过对该课程内容的了解,可以更好地了解Hadoop技术。
课程简介
学习通Hadoop系统开发(梁晶)是一门面向Hadoop开发者的高级课程,主要讲解Hadoop生态系统的相关技术,包括Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护、Hadoop生态系统的其他相关技术等内容。
课程内容
学习通Hadoop系统开发(梁晶)的课程内容非常丰富,主要包括以下几个方面:
- Hadoop生态系统入门
- Hadoop的安装与配置
- HDFS的架构与实现
- MapReduce的原理与编程
- Hadoop集群的管理与维护
- Hadoop生态系统的其他相关技术
Hadoop生态系统入门
在学习Hadoop之前,需要先了解Hadoop生态系统的相关技术。该课程从Hadoop生态系统的概念入手,介绍了Hadoop的发展历程、Hadoop的核心组件以及Hadoop的应用场景等内容,使学生对Hadoop有一个总体的了解。
Hadoop的安装与配置
Hadoop的安装与配置是学习Hadoop的第一步。该课程详细介绍了Hadoop的各个版本的安装与配置方法,包括单机版、伪分布式版、完全分布式版等。并且,该课程还介绍了Hadoop的配置文件的作用及其相关参数的配置方法。
HDFS的架构与实现
HDFS是Hadoop分布式文件系统,是Hadoop生态系统中最核心的组件之一。该课程介绍了HDFS的架构与实现,包括HDFS的设计思想、NameNode、DataNode、SecondaryNameNode等组件的作用及其工作原理。
MapReduce的原理与编程
MapReduce是Hadoop分布式计算框架,是Hadoop生态系统中另一个核心组件。该课程详细介绍了MapReduce的原理、编程模型、Mapper与Reducer等组件的作用及其工作原理,还演示了MapReduce的实际应用。
Hadoop集群的管理与维护
在实际应用中,Hadoop集群的管理与维护非常重要。该课程介绍了Hadoop集群的管理与维护,包括集群的监控、日志分析、故障处理、安全管理等内容。
Hadoop生态系统的其他相关技术
除了上述内容外,Hadoop生态系统还包括很多其他相关技术,如Hive、Pig、HBase、Zookeeper等。该课程还介绍了这些技术的相关内容,以丰富学习者的知识储备。
课程收获
学习通Hadoop系统开发(梁晶)是一门非常实用的课程,通过该课程的学习,可以让学生全面了解Hadoop生态系统的相关技术,掌握Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护等技术,从而在实际应用中更为熟练地使用Hadoop技术。
总结
学习通Hadoop系统开发(梁晶)是一门非常优秀的课程,对于想要学习Hadoop技术的人来说,是一份非常有价值的资料。通过该课程的学习,可以更好地了解Hadoop技术,提高Hadoop技术的应用能力。