0.0876

五煦查题

快速找到你需要的那道考题与答案

超星Hadoop系统开发(梁晶)答案(学习通2023课后作业答案)

52 min read

超星Hadoop系统开发(梁晶)答案(学习通2023课后作业答案)

第1章 大数据概述

第1章 大数据概述 单元测验

1、超星第三次信息化浪潮的系统学习标志是:
A、个人电脑的梁晶普及
B、互联网的答案普及
C、云计算、通课大数据、后作物联网技术的业答普及
D、虚拟现实技术的超星普及

2、就数据的系统学习量级而言,1PB数据是梁晶多少TB?
A、512
B、答案1024
C、通课1000
D、后作2048

3、业答以下关于云计算、超星大数据和物联网之间的关系,论述错误的是:
A、云计算侧重于数据分析
B、云计算、大数据和物联网三者紧密相关,相辅相成
C、物联网可以借助于云计算实现海量数据的存储
D、物联网可以借助于大数据实现海量数据的分析

4、以下哪个不是大数据时代新兴的技术:
A、Hadoop
B、Spark
C、HBase
D、MySQL

5、每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:
A、MapReduce
B、Pregel
C、Dremel
D、Storm

6、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、GraphX
B、S4
C、Hive
D、Impala

7、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Flume
C、Storm
D、Pregel

8、每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:
A、MapReduce
B、HDFS
C、Dremel
D、S4

9、数据产生方式大致经历了三个阶段,包括:
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
D、移动互联网数据阶段

10、大数据发展的三个阶段是:
A、萌芽期
B、低谷期
C、成熟期
D、大规模应用期

11、大数据的特性包括:
A、数据量大
B、数据类型繁多
C、处理速度快
D、价值密度低

12、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:
A、实验科学
B、理论科学
C、计算科学
D、数据密集型科学

13、大数据带来思维方式的三个转变是:
A、精确而非全面
B、全样而非抽样
C、效率而非精确
D、相关而非因果

14、大数据主要有哪几种计算模式:
A、批处理计算
B、流计算
C、图计算
D、查询分析计算

15、云计算的典型服务模式包括三种:
A、PaaS
B、IaaS
C、SaaS
D、MaaS

第一章 大数据基本概念

1、1、大数据的含义是什么?

2、2、数据科学的目标和任务是什么?

3、3、大数据和人工智能是什么关系?

4、4、大数据有哪些特征?

第2章 大数据处理架构Hadoop

第2章 大数据处理架构Hadoop 单元测验

1、启动hadoop所有进程的命令是:
A、start-dfs.sh
B、start-hadoop.sh
C、start-all.sh
D、start-hdfs.sh

2、以下对Hadoop的说法错误的是:
A、Hadoop的核心是HDFS和MapReduce
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
D、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

3、以下哪个不是Hadoop的特性:
A、高容错性
B、高可靠性
C、成本高
D、支持多种编程语言

4、以下名词解释不正确的是:
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统

5、以下哪些组件是Hadoop的生态系统的组件:
A、MapReduce
B、HDFS
C、Oracle
D、HBase

6、以下哪个命令可以用来操作HDFS文件:
A、hadoop fs
B、hdfs dfs
C、hadoop dfs
D、hdfs fs

Hadoop搭建

1、Hadoop搭建需要修改哪些配置文件,各个配置文件的功能是什么?

第3章 分布式文件系统HDFS

编程实现HDFS文件读取

1、编程实现HDFS文件读取

编程实现HDFS文件写入

1、编程实现HDFS文件写入

第4章 MapReduce

用户登录次数统计

1、编程统计user_login.txt中每个用户登录的总次数

按用户登录次数进行排序

1、将上节课用户登录次数统计的结果,按照登录次数从小到大进行排序

统计学生成绩平均分

1、根据书上147页描述,编写数据文件并计算学生成绩平均分

QQ好友推荐

1、根据149页的QQ好友数据,实现QQ好友推荐

自定义键类型

1、根据user_login.txt文件,自定义键类型,统计每人每月登录的总次数

自定义键值二次排序

1、自定义键值二次排序,将user_login.txt按照用户和月份的降序进行排序

Combiner组件

1、在自定义键值的代码中增加Combiner组件

Partitioner组件

1、在自定义键值的代码中增加Partitioner组件,将输出的结果按月份分配到不同文件中

第6章 数据仓库Hive

使用Hive计算成绩平均分

1、使用Hive计算成绩平均分

使用Hive连接学生姓名表和学生成绩表

1、使用Hive连接学生姓名表和学生成绩表

期末测试一

期末测试客观题

1、以下哪个是谷歌三篇大数据论文没有涉及的大数据组件:
A、HDFS
B、HBase
C、MapReduce
D、Yarn

2、Hadoop中,下面哪个进程负责 HDFS 数据存储:
A、NameNode
B、Jobtracker
C、Datanode
D、secondaryNameNode

3、HDFS 中的Block 默认保存几个备份。
A、3 份
B、2 份
C、1 份
D、不确定

4、HDFS3.0默认Block Size大小是多少:
A、32MB
B、64MB
C、128MB
D、256MB

5、HDFS具有高容错、高可靠性、高可扩展性、高吞吐率的特征,适合读写的任务是:
A、一次写入,少量读出
B、多次写入,少量读出
C、多次写入,多次读出
D、一次写入,多次读出

6、MapReduce编程模型中Combiner不适宜下列哪个运算:
A、Max
B、Min
C、Count
D、Average

7、下列关于MapReduce说法不正确的是:
A、MapReduce是一种计算框架
B、MapReduce思想来源于google的学术论文
C、MapReduce程序只能用java编写
D、MapReduce隐藏了并行计算的细节,方便使用

8、MapReduce擅长以下哪个领域的计算:
A、离线批处理
B、流式计算
C、内存计算
D、图计算

9、下列关于MapReduce的说法错误的是:
A、MapReduce分为Map和Reduce两个阶段
B、Map阶段由一系列Map任务构成
C、Reduce阶段由一系列Reduce任务构成
D、Map和Reduce阶段没有任何依赖关系

10、Hadoop中执行一个job,如果这个job的输出路径已经存在,那么程序会:
A、没有任何提示,自动覆盖这个输出路径
B、抛出警告,但是能够继续执行
C、抛出一个异常,然后退出
D、自动创建一个新的输出路径

11、Hadoop的运行模式有单机模式、伪分布式模式和_______

12、Hadoop集群搭建过程中,常用的4个配置文件是core-site.xml、_______、mapred-stite.xml和yarn-site.xml。

13、启动Hadoop集群全部进程的命令是_______。

14、停止Hadoop集群全部进程的命令是________

15、为了提高MapReduce作业的工作效率,Hadoop允许用户声明一个________,它是一个运行在Map端的“迷你Reduce”过程。

期末测试二

期末测试测,编程题

1、有一个学生考试成绩的成绩表文件格式如下图所示。该文件每行数据包括两个字段:科目和分数。要求编程求出每个科目成绩的平均分,请将Map端和Reduce端代码分别补充完整。 语文 73 数学 97 英语 21 物理 72 化学 49 生物 69 (1)请补充Map端代码(10分) public class subjectscoreMapper extends Mapper<LongWritable, Text, Text, IntWritable> { protected void map(LongWritable key, Text value,Context context) throws IOException, { } } (2)请补充Reduce端代码(10分) public class subjectscoreReducer extends Reducer<Text, IntWritable, Text, FloatWritable> { protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, { } }

2、有一个统计2014年到2017年气温的文件格式如下图所示。该文件每行数据包括两个字段:日期和气温。 20141119 -0.22 20141120 2.5 20160625 27.44 20160626 26.94 20170213 16.17 20170316 11.5 为了方便统计和计算,设计了自定义的temperatureLog类型,该类型包含了一个记录日期logdate和一个实时温度temperature成员,如下面代码所示。 public class temperatureLog implements WritableComparable<temperatureLog>{ private String logdate; private float temperature public temperatureLog() { super(); } public temperatureLog(String logdate , float temperature){ this.logdate=logdate; this.temperature=temperature; } public String toString() { return this.logdate+"\t"+this.temperature ; } /*此处省略getLogdate和setLogdate方法的实现,下面的代码中可以直接调用*/ /*此处省略getTemperature和setTemperature方法的实现,下面的代码中可以直接调用*/ /*此处省略write 和readFields方法的实现,下面的代码中可以直接调用*/ (1)为了让输出文件中自定义的temperatureLog数据按照日期从近到远排序,即从20171231到20140101排序,请补充完整自定义的temperatureLog类型中的compareTo函数(5分)。 public int compareTo(temperatureLog o) { } } (2)为了将2014到2017这4年的数据分别存储到4个不同文件中,设计了Partitioner函数,,请将下面Partitioner补充完整(10分)。 public class temperaturePartitioner extends Partitioner< temperatureLog, Text> { @Override public int getPartition(temperatureLog key, Text value, int numPartitions) { } }

学习通Hadoop系统开发(梁晶)

众所周知,Hadoop是大数据时代的代表性技术之一,它以其高可扩展性、高性能、高容错性等优良特性,成为了当今大数据处理的首选技术之一。本文主要介绍学习通Hadoop系统开发(梁晶)这门课程,通过对该课程内容的了解,可以更好地了解Hadoop技术。

课程简介

学习通Hadoop系统开发(梁晶)是一门面向Hadoop开发者的高级课程,主要讲解Hadoop生态系统的相关技术,包括Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护、Hadoop生态系统的其他相关技术等内容。

课程内容

学习通Hadoop系统开发(梁晶)的课程内容非常丰富,主要包括以下几个方面:

  1. Hadoop生态系统入门
  2. Hadoop的安装与配置
  3. HDFS的架构与实现
  4. MapReduce的原理与编程
  5. Hadoop集群的管理与维护
  6. Hadoop生态系统的其他相关技术

Hadoop生态系统入门

在学习Hadoop之前,需要先了解Hadoop生态系统的相关技术。该课程从Hadoop生态系统的概念入手,介绍了Hadoop的发展历程、Hadoop的核心组件以及Hadoop的应用场景等内容,使学生对Hadoop有一个总体的了解。

Hadoop的安装与配置

Hadoop的安装与配置是学习Hadoop的第一步。该课程详细介绍了Hadoop的各个版本的安装与配置方法,包括单机版、伪分布式版、完全分布式版等。并且,该课程还介绍了Hadoop的配置文件的作用及其相关参数的配置方法。

HDFS的架构与实现

HDFS是Hadoop分布式文件系统,是Hadoop生态系统中最核心的组件之一。该课程介绍了HDFS的架构与实现,包括HDFS的设计思想、NameNode、DataNode、SecondaryNameNode等组件的作用及其工作原理。

MapReduce的原理与编程

MapReduce是Hadoop分布式计算框架,是Hadoop生态系统中另一个核心组件。该课程详细介绍了MapReduce的原理、编程模型、Mapper与Reducer等组件的作用及其工作原理,还演示了MapReduce的实际应用。

Hadoop集群的管理与维护

在实际应用中,Hadoop集群的管理与维护非常重要。该课程介绍了Hadoop集群的管理与维护,包括集群的监控、日志分析、故障处理、安全管理等内容。

Hadoop生态系统的其他相关技术

除了上述内容外,Hadoop生态系统还包括很多其他相关技术,如Hive、Pig、HBase、Zookeeper等。该课程还介绍了这些技术的相关内容,以丰富学习者的知识储备。

课程收获

学习通Hadoop系统开发(梁晶)是一门非常实用的课程,通过该课程的学习,可以让学生全面了解Hadoop生态系统的相关技术,掌握Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护等技术,从而在实际应用中更为熟练地使用Hadoop技术。

总结

学习通Hadoop系统开发(梁晶)是一门非常优秀的课程,对于想要学习Hadoop技术的人来说,是一份非常有价值的资料。通过该课程的学习,可以更好地了解Hadoop技术,提高Hadoop技术的应用能力。

学习通Hadoop系统开发(梁晶)

众所周知,Hadoop是大数据时代的代表性技术之一,它以其高可扩展性、高性能、高容错性等优良特性,成为了当今大数据处理的首选技术之一。本文主要介绍学习通Hadoop系统开发(梁晶)这门课程,通过对该课程内容的了解,可以更好地了解Hadoop技术。

课程简介

学习通Hadoop系统开发(梁晶)是一门面向Hadoop开发者的高级课程,主要讲解Hadoop生态系统的相关技术,包括Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护、Hadoop生态系统的其他相关技术等内容。

课程内容

学习通Hadoop系统开发(梁晶)的课程内容非常丰富,主要包括以下几个方面:

  1. Hadoop生态系统入门
  2. Hadoop的安装与配置
  3. HDFS的架构与实现
  4. MapReduce的原理与编程
  5. Hadoop集群的管理与维护
  6. Hadoop生态系统的其他相关技术

Hadoop生态系统入门

在学习Hadoop之前,需要先了解Hadoop生态系统的相关技术。该课程从Hadoop生态系统的概念入手,介绍了Hadoop的发展历程、Hadoop的核心组件以及Hadoop的应用场景等内容,使学生对Hadoop有一个总体的了解。

Hadoop的安装与配置

Hadoop的安装与配置是学习Hadoop的第一步。该课程详细介绍了Hadoop的各个版本的安装与配置方法,包括单机版、伪分布式版、完全分布式版等。并且,该课程还介绍了Hadoop的配置文件的作用及其相关参数的配置方法。

HDFS的架构与实现

HDFS是Hadoop分布式文件系统,是Hadoop生态系统中最核心的组件之一。该课程介绍了HDFS的架构与实现,包括HDFS的设计思想、NameNode、DataNode、SecondaryNameNode等组件的作用及其工作原理。

MapReduce的原理与编程

MapReduce是Hadoop分布式计算框架,是Hadoop生态系统中另一个核心组件。该课程详细介绍了MapReduce的原理、编程模型、Mapper与Reducer等组件的作用及其工作原理,还演示了MapReduce的实际应用。

Hadoop集群的管理与维护

在实际应用中,Hadoop集群的管理与维护非常重要。该课程介绍了Hadoop集群的管理与维护,包括集群的监控、日志分析、故障处理、安全管理等内容。

Hadoop生态系统的其他相关技术

除了上述内容外,Hadoop生态系统还包括很多其他相关技术,如Hive、Pig、HBase、Zookeeper等。该课程还介绍了这些技术的相关内容,以丰富学习者的知识储备。

课程收获

学习通Hadoop系统开发(梁晶)是一门非常实用的课程,通过该课程的学习,可以让学生全面了解Hadoop生态系统的相关技术,掌握Hadoop的安装与配置、HDFS的架构与实现、MapReduce的原理与编程、Hadoop集群的管理与维护等技术,从而在实际应用中更为熟练地使用Hadoop技术。

总结

学习通Hadoop系统开发(梁晶)是一门非常优秀的课程,对于想要学习Hadoop技术的人来说,是一份非常有价值的资料。通过该课程的学习,可以更好地了解Hadoop技术,提高Hadoop技术的应用能力。