0.0617

五煦查题

快速找到你需要的那道考题与答案

知到机器学习实战——基于Scikit-Learn期末答案(知到2023年完整答案)

79 min read

知到机器学习实战——基于Scikit-Learn期末答案(知到2023年完整答案)

1、机器基于多选题:
以下属于监督学习算法的学习有()
选项:
A:神经网络
B:逻辑回归
C:决策树和随机森林
D:线性回归
E:支持向量机(SVM)
F:K近邻算法
答案:【神经网络;
逻辑回归;
决策树和随机森林;
线性回归;
支持向量机(SVM);
K近邻算法】

2、多选题:
以下属于监督学习算法的实战有()
选项:
A:可视化和降维
B:关联性规则学习
C:聚类
答案:【可视化和降维;
关联性规则学习;
聚类】

3、判断题:
下载维基百科的末答副本,电脑得到了更多的案知数据,因此维基百科的到年答案副本是一个机器学习应用。()
选项:
A:错
B:对
答案:【错】

4、完整判断题:
使用机器学习方法挖掘大量数据,机器基于可以发现并不显著的学习规律。这称作数据挖掘。实战()
选项:
A:对
B:错
答案:【对】

5、末答判断题:
根据是案知否可以动态渐进学习,将机器学习分为在线学习和批量学习。到年答案()
选项:
A:错
B:对
答案:【对】

6、完整判断题:
通过简单地比较新的机器基于数据点和已知的数据点,这样的机器学习应用是基于实例的学习。()
选项:
A:对
B:错
答案:【对】

7、判断题:
在训练数据中进行模式识别,以建立一个预测模型,这种机器学习应用是基于模型的学习。()
选项:
A:对
B:错
答案:【对】

8、判断题:
垃圾邮件过滤器就是一个典型的回归任务。()
选项:
A:对
B:错
答案:【错】

9、判断题:
在线学习系统的一个重要参数是学习速率,它决定了系统可以多快的适应数据的改变。()
选项:
A:对
B:错
答案:【对】

10、判断题:
在线学习的挑战之一是,如果坏数据被用来进行训练,系统的性能就会逐渐下滑。()
选项:
A:对
B:错
答案:【对】

第二章单元测试

1、多选题:
房价预测模型是典型的()
选项:
A:批量学习任务
B:回归任务
C:强化学习任务
D:监督式学习任务
答案:【批量学习任务;
回归任务;
监督式学习任务】

2、多选题:
机器学习系统启动后,需要()
选项:
A:评估系统输入数据的质量。
B:定期使用新数据训练模型。
C:评估系统性能,需要对预测值采样并进行评估。
D:编写监控代码,以定期检查系统的实时性能,在性能发生下降时触发报警。
答案:【评估系统输入数据的质量。;
定期使用新数据训练模型。;
评估系统性能,需要对预测值采样并进行评估。;
编写监控代码,以定期检查系统的实时性能,在性能发生下降时触发报警。】

3、判断题:
回归问题的典型性能衡量指标是均方根误差()
选项:
A:错
B:对
答案:【对】

4、判断题:
一个序列的数据处理组件称为一个数据流水线。()
选项:
A:错
B:对
答案:【对】

5、判断题:
数据可视化是数据探索的方法之一。()
选项:
A:错
B:对
答案:【对】

6、判断题:
流水线的组件通常是同步运行。()
选项:
A:对
B:错
答案:【错】

智慧树机器学习实战——基于Scikit-Learn

机器学习是人工智能领域的重要分支,其应用已经渗透到各个领域,包括自然语言处理、图像处理、生物信息学等领域。为了能够应对日益复杂的机器学习问题,我们需要使用强大的工具和框架。Scikit-Learn是一个Python机器学习库,它提供了大量的算法和工具,可以快速地构建和调试机器学习模型。在本文中,我们将介绍Scikit-Learn的一些基本概念和用法,并演示如何使用Scikit-Learn构建简单的机器学习模型。

Scikit-Learn简介

Scikit-Learn是一个Python机器学习库,它建立在NumPy、SciPy和Matplotlib之上,提供了在Python中进行机器学习和数据挖掘所需要的基本工具。Scikit-Learn包含了大量的经典机器学习算法,包括回归、分类、聚类、降维等算法,同时也包含了一些数据预处理和模型评估的工具。

Scikit-Learn的设计目标是简单、高效和易扩展。它使用简单的API提供了大量的功能,并且具有良好的性能。此外,Scikit-Learn还支持并行计算、交叉验证和管道等高级功能,方便用户进行模型选择和调试。

Scikit-Learn的基本概念

在使用Scikit-Learn进行机器学习之前,我们需要了解一些基本概念。

数据集

在机器学习中,我们使用数据集来训练和测试模型。数据集通常由输入和输出组成,其中输入通常称为特征,输出通常称为标签。数据集分为训练集和测试集两部分,训练集用于训练模型,测试集用于测试模型的性能。

模型

模型是机器学习的核心,它用于从输入数据中学习规律,并对未知数据进行预测。模型可以是线性模型、非线性模型、树模型、神经网络等。在Scikit-Learn中,我们可以使用已经实现的经典算法,也可以自己定义模型。

损失函数

损失函数用于衡量模型预测结果与真实结果之间的差异。在训练过程中,我们通常使用损失函数来衡量模型的性能,并使用优化算法来最小化损失函数。

评估指标

评估指标用于衡量模型的性能。在分类问题中,我们通常使用准确率、精确率、召回率和F1值等指标来评估模型。在回归问题中,我们通常使用均方误差、均方根误差和R平方等指标来评估模型。

交叉验证

交叉验证是一种模型评估方法,它将数据集划分成若干个互不重叠的子集,每次使用其中的一部分作为验证集,其余部分作为训练集。交叉验证可以帮助我们更准确地评估模型的性能。

Scikit-Learn的应用

接下来,我们将演示如何使用Scikit-Learn进行机器学习模型的构建和调试。

数据集的加载和预处理

在使用Scikit-Learn进行机器学习之前,我们需要加载和预处理数据集。Scikit-Learn提供了许多常用的数据集,如鸢尾花数据集、波士顿房价数据集、手写数字数据集等。这些数据集被存储在Scikit-Learn的datasets模块中。

以下是加载鸢尾花数据集的代码:

我们可以使用numpy数组或pandas数据框来存储特征和标签。在加载数据集之后,我们通常需要对数据集进行预处理,包括数据清洗、缺失值填充、特征提取、特征缩放等。在Scikit-Learn中,我们可以使用数据预处理模块来完成这些任务。以下是对鸢尾花数据集进行特征缩放的代码:

标准化特征可以将特征缩放成均值为0、方差为1的分布,有利于优化算法的收敛性。

模型的训练和预测

在预处理数据集后,我们可以使用Scikit-Learn中的各种模型进行训练和预测。以下是使用K近邻算法进行分类的代码:

在上面的代码中,我们使用了KNeighborsClassifier类构建了一个K近邻分类器,并调用了fit方法对模型进行训练。然后,使用predict方法对训练集进行了预测,并将预测结果存储在y_pred变量中。

模型的评估和调试

使用交叉验证可以帮助我们更准确地评估模型的性能。以下是10折交叉验证的代码:

在上面的代码中,我们使用了cross_val_score函数对模型进行了10折交叉验证,并计算了模型的准确率的均值和标准差。

有时候,我们需要对模型进行调试,以提高模型的性能。Scikit-Learn提供了GridSearchCV和RandomizedSearchCV工具,可以帮助我们进行参数调优。以下是使用GridSearchCV对K近邻算法进行参数调优的代码:

在上面的代码中,我们使用了GridSearchCV类对K近邻算法的n_neighbors参数进行了调优,并使用10折交叉验证来评估模型性能。调用fit方法进行训练后,我们可以使用best_params_属性获取最优参数值。

总结

Scikit-Learn是一个功能强大、易于使用、高效的Python机器学习库,它提供了大量的算法和工具,支持各种常见的机器学习任务。在使用Scikit-Learn进行机器学习时,我们需要了解一些基本概念,如数据集、模型、损失函数、评估指标和交叉验证等。我们可以使用Scikit-Learn的预处理模块对数据集进行预处理,使用各种模型进行训练和预测,使用交叉验证评估模型性能,使用GridSearchCV和RandomizedSearchCV工具进行参数调优。Scikit-Learn是Python机器学习领域的重要工具之一,值得深入学习和使用。