0.0899

五煦查题

快速找到你需要的那道考题与答案

中国大学数据挖掘原理及应用课后答案(mooc2023课后作业答案)

82 min read

中国大学数据挖掘原理及应用课后答案(mooc2023课后作业答案)

第一讲 机器学习简介

第一讲测验

1、中国机器学习可以用于哪些情形?
A、大学人类无法解释的数据专业知识
B、模型需要基于大量数据
C、挖掘当人类专业知识不存在
D、原理用课业答模型必须定制

2、后答后作以下哪些属于监督学习?
A、案m案朴素贝叶斯
B、中国支持向量机
C、大学聚类
D、数据决策树

3、挖掘机器学习的原理用课业答类型有?
A、半监督学习
B、后答后作有监督学习
C、案m案无监督学习
D、中国强化学习

4、有监督学习是分类同时定性的,而无监督学习是先聚类后定性的。

5、半监督学习没标签数据的数量常常远大于有标签数据的数量。

数据挖掘 第一次作业

1、什么是数据挖掘

2、谈谈你对数据挖掘和机器学习的认识

第二讲 数据预处理与评估方法

第二讲测验

1、不平衡问题的领域有?
A、医学诊断
B、预测罕见事件
C、检测欺诈
D、预测故障/失效

2、识别任务中,召回率是被预测为“正面”的测试数据中结果是正确的比例。

数据挖掘 第二次作业 预处理

1、描述处理空缺值问题的处理方法。

2、假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用分箱中值光滑对以上数据进行光滑,箱深度为3。解释你的步骤,并评论对于给定的数据该技术的效果。

3、如何识别数据中的孤立点?

4、假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用最小-最大规范化法,将age值37变换到[0.0, 1.0]区间。

5、假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用z-score规范化法变换age值37,其中age标准误差为12.94岁。

6、假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用小数定标规范化法变换age值37

第十二讲 关联规则

数据挖掘 第三次作业

1、数据库有5个事务。设 min_sup = 60%,min_conf = 80%。 TID | 购买的商品 -------------------- T100 | { M, O, N, K, E, Y} T200 | { D, O, N, K, E, Y} T300 | { M, A, K, E} T400 | { M, U, C, K, Y} T500 | { C, O, K, I, E} 使用Apriori算法发现事务中的频繁项集。(可参照教材第32页例3.1完成)

2、比较Apriori算法与FP增长算法过程的效率。

第三讲 回归分析

第三讲测验

1、已知变量x与y正相关,且由观测数据算得x的样本平均值为3,y的样本平均值为3.5,则由该观测数据算得的线性回归方程可能是
A、y=0.4x+2.3
B、y=2x-2.4
C、y=-2x+9.5
D、y=-0.3x+4.4

2、在两个变量的回归分析中,作散点图是为了
A、直接求出回归直线方程
B、直接求出回归方程
C、根据经验选定回归方程的类型
D、估计回归方程的参数

3、下列两个变量之间的关系,哪个是函数关系
A、学生的性别与数学成绩
B、人的工作环境与健康状况
C、正方形的边长与面积
D、儿子的身高与父亲的身高

4、在线性回归方程y=a+bx中,回归系数b表示
A、当x=0时,y的平均值
B、x变动一个单位时,y的实际变动量
C、y变动一个单位时,x的平均变动量
D、x变动一个单位时,y的平均变动量

5、若每一吨铸铁成本y(元)与铸件废品率x%建立的回归方程y=56+8x,下列说法正确的是
A、废品率每增加1%,成本每吨增加64元
B、废品率每增加1%,成本每吨增加8%
C、废品率每增加1%,成本每吨增加8元
D、废品率每增加1%,成本每吨增加56元

6、若根据x与y之间的一组数据求得两个变量之间的线性回归方程为y=a+bx,已知:数据x的平均值为2,数据y的平均值为3,则
A、回归直线必过点(2,3)
B、回归直线不一定过点(2,3)
C、点(2,3)在回归直线上方
D、点(2,3)在回归直线下方

7、下列结论正确的是
A、函数关系是一种确定性关系
B、相关关系是一种非确定性关系
C、回归分析是对具有函数关系的两个变量进行统计分析的一种方法
D、回归分析是对具有相关关系的两个变量进行统计分析的一种方法

8、广义加性模型由什么特点
A、可以自动对自变量和因变量进行非线性关系的建模
B、非线性拟合可能会提高对因变量的预测精度
C、在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应
D、非线性拟合可能会降低对因变量的预测精度

9、广义加性模型的拟合方法有
A、自然样条
B、光滑样条
C、多项式回归
D、局部回归

10、下列说法正确的是
A、当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系
B、当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系
C、把非线性回归化为线性回归为我们解决问题提供了一种方法
D、当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系

11、为了考察两个变量x和y的线性相关性,甲、乙两个同学各自独立地做10次和15次实验,并且利用线性回归方法,求得回归直线分别为L1和L2。已知在两个人的实验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t,那么下列说法错误的是
A、直线L1和L2有交点(s,t)
B、直线L1和L2相交,但交点未必是点(s,t)
C、直线L1和L2由于斜率相等,所以必定平行
D、直线L1和L2必定重合

12、线性假设是指自变量xj的变化对因变量y的影响与其他自变量的的取值无关。

13、“回归函数在边界区域是线性的”这个附加约束使自然样条在边界处产生更稳定的估计

14、在N-W方法中,核函数的带宽h越小,估计的回归函数曲线越光滑,h越大,估计的回归函数曲线波动越大。

15、广义加性模型在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应。

16、回归函数刻画了平均意义下因变量与自变量的相依关系。

17、回归分析的研究对象是具有相关关系的变量。

18、回归分析的首要问题是

19、分段多项式回归的回归系数发生的临界点称为

20、自然样条是添加了 的样条回归:回归函数在边界区域是线性的。

21、做样条回归时,如果结点个数过 ,样条的回归曲线将非常曲折;反之,将过于平坦。

22、在光滑样条回归的目标函数中, 的作用是使得回归函数尽可能拟合训练数据

数据挖掘 第三次作业 线性回归

1、下表是学生的期中和期末考试成绩 期中成绩x | 期末成绩y ----------------------- 72 | 84 50 | 63 81 | 77 74 | 78 94 | 90 86 | 75 59 | 49 83 | 79 65 | 77 33 | 52 88 | 74 81 | 90 绘制数据图,观察x和y是否具有线性关系。

2、使用最小二乘方法,由学生的期中成绩预测学生的期末成绩。

3、预测期中成绩为86分学生的期末成绩。

第四讲 回归方法

第四讲测验

1、随机森林中分类树的多样性来自于?
A、样本扰动,但没有自变量扰动
B、自变量扰动,但没有样本扰动
C、样本扰动和自变量扰动
D、既没有样本扰动也没有自变量扰动

2、k最近邻法中,随着参数k的变大,最近邻分类器的偏差和方差将如何变化?
A、偏差增大,方差增大
B、偏差增大,方差减小
C、偏差减小,方差增大
D、偏差减小,方差减小

3、分类树和回归树分别被用于预测什么类型的变量?
A、定性变量,定性变量
B、定性变量,定量变量
C、定量变量,定量变量
D、定量变量,定性变量

4、k最近邻法的基本要素有?
A、k的选择
B、观测类别
C、决策规则
D、距离度量

5、目前集成树的产生方法大致可以分为两类。以下哪些算法属于个体分类树之间不存在强依赖、可同时生成的并行化方法这一类?
A、Bagging
B、Boosting
C、随机森林
D、AdaBoost

6、在分类树中,哪些指标可以作为二叉分裂的准则。
A、RSS
B、分类错误率
C、基尼指数
D、互熵

7、LDA和QDA都假设每一类观测服从正态分布,但是LDA假设每一类观测都有自己的方差(或者协方差矩阵)。

8、在构建回归树的过程中,一般采用递归二叉分裂的方法来划分自变量空间。这种方法的贪婪性体现在构建树的每一过程中,“最优”分裂仅限于某一局部过程,而不是针对全局过程。

9、在分类树中,节点的纯度越高,则互熵的值越大。

10、从偏差-方差权衡的角度看,AdaBoost主要关注降低偏差,因此AdaBoost能基于泛化性能相当弱的分类器构建出很强的集成分类器。

11、贝叶斯分类器将待判别的样本分类到使得样本的后验概率达到最大的那个类中。

12、k最近邻法具有显式的学习过程。

13、一般,我们采用什么方法来估计逻辑斯蒂模型中的参数?

14、决策树是采用什么策略处理问题的一种方法?

15、在构建回归树的过程中,我们一般采用什么方法将自变量空间划分为J个矩形区域?

16、什么就是通过构建并整合多棵分类树来完成分类任务?

数据挖掘 第五次作业 判别分类

1、下面的数据集分为3类:{ Short, Tall, Medium},Height为连续属性{ (0, 1.6] , (1.6, 1.7] , (1.7, 1.8] , (1.8, 1.9] , (1.9, 2.0] , (2.0, ∞)},假定该属性服从高斯分布,请用贝叶斯分类方法对X=(Adam, M, 1.95m)进行分类。(参考教材例4.2) Name | Gender | Height | Output ---------------------------------------------- Kristina | F | 1.6m | Short Jim | M | 2m | Tall Maggie | F | 1.9m | Medium Martha | F | 1.88m | Medium Stephanie | F | 1.7m | Short Bob | M | 1.85m | Medium Kathy | F | 1.6m | Short Dave | M | 1.7m | Short Worth | M | 2.2m | Tall Steven | M | 2.1m | Tall Debbie | F | 1.8m | Medium Todd | M | 1.95m | Medium Kim | F | 1.9m | Medium Amy | F | 1.8m | Medium Wynette | F | 1.75m | Medium

第十三讲 数据挖掘实验课 weka介绍

数据挖掘 第一次实验 数据预处理

1、在data文件夹中找到玻璃数据集glass.arff,将其导入到Explorer界面,在预处理面板中查看RI属性直方图。

2、将无监督离散化过滤器应用到等宽和等频两种离散化方法,即首先保持weka.filters.unsupervised.attribute.Discretize的全部默认选型默认值不变,然后将useEqualFrequency选项值更改为True。 比较得到的直方图,你观察到什么?

3、在预处理面板中查看Ba属性直方图,等频离散化Ba属性,再检查结果,发现直方图严重偏向一端,也就是根本不等频,这是为什么?

4、找到鸢尾花数据集iris.arff,施加有监督的离散化方法weka.filters.supervised.attribute.Discretize,观察得到的直方图,你认为最有预测的属性是哪个属性?

第五讲 支持向量机 linear support vector machine

第五讲测验

1、怎样理解非完美分类的超平面分类器?
A、允许小部分训练观测被误分。
B、允许大部分训练观测被误分。
C、两种说法都对。
D、两种说法都不对。

2、SVM算法的性能取决于?
A、核函数的选择
B、核函数的参数
C、软间隔参数C
D、以上都是

3、SVM算法的最小时间复杂度是O(n*n)。基于这一点,以下哪种规格的数据集并不适用于该算法?
A、大数据集
B、小数据集
C、中数据集
D、不受数据集大小的影响

4、假定现在有一个四分类问题,你要用One-vs-all策略训练一个SVM的模型,你需要训练几个SVM模型?
A、1
B、2
C、3
D、4

5、常用的核函数有?
A、线性核
B、径向核
C、拉普拉斯核
D、Sigmoid核

6、下面哪些是SVM在实际生活中的应用?
A、文本分类
B、图片分类
C、新闻聚类
D、手写字体识别

7、支持向量分类器的判断规则只由训练观测的一部分(支持向量)确定。

8、支持向量机通过使用核函数来扩大特征空间。

9、支持向量机可看作是一类简单、直观的最大间隔分类器的推广。

10、支持向量是最靠近决策表面的数据点。

第十四讲 dual support vector machine & 关联规则实验

数据挖掘第二次实验 关联规则

1、本次实验的任务是对超市收银台进行关联数据挖掘,加载data目录下的supermarket.arff文件,这是从新西兰一个真实超市中收集的,使用weka.associations.Apriori进行实验。 首先, 加载data目录下的supermarket.arff文件,在Current relation子面板中,观察属性和实例的数量。

2、查看数据文件supermarket.arff,描述每个实例和属性表示什么?每个属性有几个值?如果顾客没有买这个商品如何表示?

3、选择Apriori算法,保持默认选项不变,列出你得到的十条最佳关联规则。 以下为对象编辑器中属性的一些解释: car:如果设为真,则会挖掘类关联规则而不是全局关联规则。 classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。 delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport: 最小支持度下界。 metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。 minMtric :度量的最小值。 numRules: 要发现的规则数。 outputItemSets: 如果设置为真,会在结果中输出项集。 removeAllMissingCols: 移除全部为缺失值的列。 significanceLevel :重要程度。重要性测试(仅用于置信度)。 upperBoundMinSupport: 最小支持度上界。 从这个值开始迭代减小最小支持度。 verbose: 如果设置为真,则算法会以冗余模式运行。

4、规则采用“前件num.1==>结论num.2”的形式表示,前件后面的数字表示有多少个实例满足前件,结论后的数字表示有多少个实例满足整个规则。从你得到的规则得出什么结论,比如:购买biscuits饼干和frozen foods冷冻食品以及fruit水果的顾客,往往total总金额较高还会顺便买些bread面包和cake蛋糕。

第六讲 决策树

第六讲测验

1、在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最高的特征,以下可以作为得分的是?
A、熵
B、基尼系数
C、训练误差
D、以上都是

2、在决策树学习过程中,哪些情况可能会导致问题数据(特征相同但是标签不同)?
A、数据错误
B、数据有噪音
C、现有的特征不足以区分或决策
D、以上都是

3、在构建决策树时,以下属于处理有多个值的特征的方法的是
A、处理成多个二值划分
B、处理成多个划分
C、以上都是
D、以上都不是

4、在构建决策树时,以下属于处理实值特征的方法的是
A、用比较测试将数据划分为两个部分
B、处理成多个二值划分
C、选择范围过滤
D、以上都不是

5、在下列哪些情况下可以为标签创建叶节点。
A、达到一个足够小的训练误差
B、剩下一定数量/比例的数据
C、所有数据属于同一个类
D、所有数据具有相同的特征值

6、树的内部结点用特征作标签,树枝用是否符合特征来标签。

7、过拟合发生在模型太过偏向训练数据时,对于决策树可以采用修剪的方法阻止过拟合。

8、对于实值特征,可以用比较测试将数据划分为两部分,或者选择范围过滤。

9、决策树的节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。

10、过拟合发生在模型太过偏向训练数据时。

11、决策树的修剪可以采用正则化的方法。

12、我们要用概率模型对数据和标签进行学习,需要数据/标签对服从某种概率分布,称为 。

13、在决策树学习中将已生成的树进行简化的过程称为 。

数据挖掘 第六次作业 决策树

1、简述决策树分类的主要步骤

2、下表给出了一个有15个样本组成的贷款申请训练数据集X。数据包括贷款申请人的4个属性,最后一列是决策属性。 Id | 年龄 | 有工作 | 有自己的房子 | 信贷情况 | 类别(是否同意贷款) ----------------------------------------------------------- 1 | 青年 | 否 | 否 | 一般 | 否 2 | 青年 | 否 | 否 | 好 | 否 3 | 青年 | 是 | 否 | 好 | 是 4 | 青年 | 是 | 是 | 一般 | 是 5 | 青年 | 否 | 否 | 一般 | 否 6 | 中年 | 否 | 否 | 一般 | 否 7 | 中年 | 否 | 否 | 好 | 否 8 | 中年 | 是 | 是 | 好 | 是 9 | 中年 | 否 | 是 | 非常好 | 是 10 | 中年 | 否 | 是 | 非常好 | 是 11 | 老年 | 否 | 是 | 非常好 | 是 12 | 老年 | 否 | 是 | 好 | 是 13 | 老年 | 是 | 否 | 好 | 是 14 | 老年 | 是 | 否 | 非常好 | 是 15 | 老年 | 否 | 否 | 一般 | 否 首先,描述每个属性及其可能的取值。

3、对上表的数据,通过手动模拟ID3算法来实现决策过程,并描述决策树用到了几个属性。(参考教材例4.1)

数据挖掘 第三次实验 决策树

1、加载天气数据集weather.nominal.arff。

2、找到构建决策树的C4.5算法:weka.classifiers.trees.J48

3、用训练集Use training set,右击结果列表中的trees.J48条目,选择Visualize tree,构建可视化的决策树

4、加载鸢尾花Iris 数据,分别用训练集Use training set和十折交叉验证Cross-validation Folds 10两种方案在数据上评估C4.5,包括正确分类的测试实例和正确分类的比例。

5、右击结果列表中的交叉验证方案trees.J48条目,选择Visualize classifier errors,横坐标为真实类别,纵坐标为预测类别,双击散点图中的叉和方形,观察他们所代表的标记。

第七讲 集成学习:兼听则明,偏听则暗

第七讲测验

1、Boosting算法中的加权体现在?
A、训练阶段数据的加权和分类阶段每个弱分类器的加权
B、训练阶段数据的加权,没有分类阶段每个弱分类器的加权
C、分类阶段每个弱分类器的加权,没有训练阶段数据的加权
D、既没有训练阶段数据的加权,也没有分类阶段每个弱分类器的加权

2、AdaBoost算法对于每个弱分类器都需要进行以下三步操作: 1、计算加权误差 2、改变每个例子的权重 3、计算分类器的得分 请选择正确的排序?
A、1、2、3
B、1、3、2
C、2、1、3
D、3、1、2

3、以下哪些算法是Boosting的变种?
A、AdaBoost
B、LogitBoost
C、BrownBoost
D、以上三种都是

4、以下属于分割训练数据方法的特点有?
A、容易实现、快速
B、每个分类器只在小量数据上训练
C、分类器不独立,它们可能犯同样的错误
D、从不同的数据学习,不会产生过拟合

5、以下选项属于装袋的特点有?
A、倾向于减少分类器的方差
B、通过投票,分类器对于有噪音的数据更加稳健
C、对于训练集中的微小变化产生了非常不同的模型的情况有用
D、对于容易过度拟合的分类器有用

6、在合奏学习中,我们可以由以下哪些方法获得独立的分类器?
A、分割训练数据
B、装袋
C、提升算法(Boosting)
D、用不同的学习方法(如决策树、k-近邻、朴素贝叶斯等)

7、装袋是指通过取样从原始训练数据集中创建m个“新”训练数据集(m"bootstrap"样本),在每个数据集上训练分类器分类,从m个分类器中获得多数投票。

8、Boosting算法对正确分类的数据增加权重,对错误分类的数据减小权重。

9、AdaBoost算法更新数据权重只根据当前分类器更新权重(不改变以前分类器的权重)。

10、一般情况下,Boosting算法即使经过大量迭代,也不会过度拟合。

11、一个强分类器是以概率1-p产生一个误差率小于0.5的分类器。

12、假如有3个独立的分类器,每个分类器犯错误的概率相同为0.1,那么合奏学习错误的概率是多少?

13、装袋算法(Bagging)使用什么作为数据生成分布的代理?

14、在AdaBoost算法中,如果一个分类器的误差权重为0.5,那么它的“得分”是?

15、一级树可以称为什么?

第八讲 正则化方法

第八讲测试

1、基于模型的机器学习包括以下步骤:1、选择一个优化标准(即目标函数),2、建立一个学习算法,3、选择一个模型。则正确步骤为
A、213
B、312
C、321
D、123

2、随着模型复杂度逐渐增加,训练集的偏差平方和方差分别会如何变化?
A、增加,减少
B、减少,增加
C、增加,增加
D、减少,减少

3、增加训练数据会导致以下哪些结果?
A、减小方差
B、增大方差
C、向右移动最优复杂度
D、向左移动最优复杂度

4、通过梯度下降的原理,求损失函数的极小值来对模型进行优化是在训练集上进行的。

5、与采用权重的和作为正则化项相比,采用权重的平方和作为正则化项会给予权重的较大值更多的惩罚。

6、通过梯度下降法最小化训练集的损失函数得到的参数一般不会使测试集也最小。

7、随着分类器复杂度逐渐增加,测试集上的误差/损失会呈现先下降后上升的趋势。

8、正则化项时损失函数的附加标准,以确保不会过拟合。

9、引入正则化项可以惩罚较大的权重。

10、L1正则化往往会导致稀疏解决方案(大量零权重)。

第九讲 人工神经网络

第九讲测试

1、非线性机器学习算法具有以下的什么特性?
A、针对难以用准则来描述的复杂模型
B、能够达到更深层次的抽象
C、能够进行广泛使用的分类算法
D、以上都是

2、神经网络的学习步骤包括:1、求得权重等参数,2、定义代价函数,3、对测试数据进行预测,4、根据样本数据和标签采用梯度下降法进行学习,步骤的正确顺序为:
A、4213
B、2413
C、2143
D、4123

3、使用均方误差作为代价函数,有什么特点?
A、形式简单
B、通俗易懂
C、容易出现饱和现象
D、容易陷入局部最优解

4、感知器可以解决一下哪些问题?
A、实现逻辑关系中的与
B、实现逻辑关系中的或
C、实现逻辑关系中的非
D、线性分类和线性回归问题

5、神经网络具有下面哪几个特点?
A、能充分逼近复杂的非线性关系
B、具有高度的容错能力
C、具有自组织能力
D、可以并行分布处理

6、以下会造成梯度消失的激活函数有
A、sigmoid函数
B、tanh函数
C、ReLU函数
D、softplus函数

7、单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。

8、前馈神经网络中偏置单元可以有输入。

9、在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。

10、神经网络中的神经元有两个状态:兴奋、抑制。这两个状态由阈值决定。

11、前馈式神经网络层间有反馈。

12、小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息

13、小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数

14、在 模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元

第十一讲 聚类分析

第十一讲测验

1、以下哪些方法可以确定K-均值算法已经收敛?
A、划分不再改变
B、聚类中心不再改变
C、固定次数的迭代
D、以上三种均是

2、以下哪些算法可以处理非高斯数据?
A、K-means算法
B、EM算法
C、谱聚类算法
D、以上三种算法都可以

3、无监督学习可以应用于哪些方面?
A、图像压缩
B、生物信息学:学习基因组
C、客户细分(即分组)
D、学习没有任何标签的聚类/群组

4、以下哪些选项是K-均值聚类面临的问题?
A、K的选择具有挑战性
B、硬聚类并不总是正确的
C、贪婪算法存在的问题
D、关于数据的球形假设(到聚类中心的距离)

5、聚类可以应用于哪些方面?
A、基因表达数据的研究
B、面部聚类
C、搜索结果聚类
D、新闻搜索

6、在K-均值算法中,以下哪些方法可以用于随机种子的选择?
A、随机选择数据作为中心
B、空间中的随机位置作为中心
C、尝试多个初始起点
D、使用另一个聚类方法的结果进行初始化

7、EM算法可以应用于以下哪些方面?
A、学习贝叶斯网络的概率
B、EM-聚类
C、训练HMM
D、学习微信好友网络

8、聚类算法中的谱聚类算法是一种分层算法。

9、两个向量之间的余弦距离等于1减这两个向量的余弦相似度。

10、K-均值++算法能够克服最远点不能处理离群值的问题。

11、K-means和EM聚类之间的主要区别之一是EM聚类是一种“软”聚类算法。

12、监督学习的训练集时有标签的数据。

13、在文本聚类中,欧氏距离是比较适合的。

14、无监督学习中除了聚类,另一种是什么?

15、我们将一个数据可以属于多个类(概率)的聚类称作什么?

16、EM算法中,E代表期望,M代表什么?

数据挖掘 第四次实验 聚类

1、Weka通常支持4中数据类型:数值型nominal、标称型、字符串型、日期和时间型。导入weather.numeric.arff天气数据,观察数据的属性值有哪些类型?

2、切换至Cluster聚类面板,选择SimpleKMeans算法,保持默认参数,即2个簇以及欧氏距离,单击Ignore attribute 按钮,选择play属性为忽略属性,单击select确认选择,单击Start显示运行结果。

3、此聚类结果以表格形式显示,解释每行、每列所对应的信息

4、这里Full Data是一个额外的簇,括号里表示什么信息?

5、EM算法是在概率中寻找参数最大似然估计或者最大后验估计的算法,下面用EM算法对与上面相同数据进行分析。单击Choose选择EM聚类器,修改numClusters簇数为2,其他保持默认值。确保Play为忽略属性,单击Start显示运行结果。

6、比较EM与Kmeans的聚类结果表,有什么不同?

7、比较Kmeans与EM中不同的表项显示的内容。

8、比较Kmeans与EM最后分配给每个簇实例的数量分别是多少?

第十讲 深度学习

第十讲测验

1、卷积层具有以下哪些特点?
A、稀疏交互
B、参数共享
C、等变表示
D、以上三个都是

2、以下能够避免过拟合的方法有?
A、数据增强,从数据源头获取更多数据
B、增加训练次数
C、增加网络的深度
D、正则化

3、以下能够避免梯度消失和梯度爆炸的方法有?
A、梯度裁剪,给定梯度的上下阈值
B、批规范化
C、使用残差网络结构
D、采用带记忆的网络结构,如LSTM

4、以下哪些属于深层网络模型?
A、AlexNet
B、VGG
C、GoogleNet
D、ResNet

5、池化层可以非常有效地缩小参数矩阵的尺寸,从而减少后面的卷积层或者全连接层中的参数数量。

6、多伦多大学的Geoffrey Hinton教授利用预训练的方式来缓解局部最优解的问题,提出了真正意义上的深度神经网络,从而掀起了第二次机器学习热潮——“深度学习”。

7、正则化方法是一种通过引入额外的新信息来解决机器学习中过拟合问题的方法。

8、全连接的神经网络应用于图像处理时可能会导致一个严重的参数数量的膨胀的问题。

9、卷积层的输出通常由3个量来控制,它们分别是深度、步幅和什么?

10、深度神经网络和浅度神经网络模型具有相似的结构,由输入层、输出层和什么构成?

11、我们将在深度网络学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃的方法称作什么?

学习通数据挖掘原理及应用

数据挖掘是指从数据中自动提取有价值信息的过程。随着互联网时代的到来,数据量呈现爆炸式增长,数据挖掘成为了一个越来越重要的技术领域。

数据挖掘的基本过程

数据挖掘的基本过程包括数据预处理、特征选择、模型建立和模型评估等步骤。下面分别介绍。

数据预处理

数据预处理是指通过一系列的处理手段对原始数据进行加工修饰,使得数据更加适合建模分析和挖掘。数据预处理包括数据清洗、数据集成、数据变换和数据规约等步骤。

特征选择

特征选择是指从原始数据中选择与特定任务有关的特征子集,抛弃与任务无关的特征,以减少特征数目和提升模型准确率。特征选择的方法包括过滤式、包裹式和嵌入式等。

模型建立

模型建立是指选择合适的数据挖掘算法,将预处理得到的数据输入到模型中,从而得到预测或分类结果。常用的算法包括分类算法、回归算法、聚类算法和关联规则挖掘算法等。

模型评估

模型评估是指通过对模型的评价来判断模型的优劣和适用范围。评价指标包括准确率、召回率、F1值等。

数据挖掘的应用

数据挖掘在各个领域都有广泛应用。

金融领域

数据挖掘可以用于信用评估、风险控制、欺诈检测等方面。例如,在信用评估方面,可以通过建立信用评分模型,对客户进行信用评估,从而为银行和企业提供参考。

医疗领域

数据挖掘可以用于疾病预测、诊断、治疗等方面。例如,在疾病预测方面,可以通过分析病人的生理指标、病史等因素,建立疾病风险预测模型,从而提高疾病的预测准确率。

电子商务领域

数据挖掘可以用于推荐系统、会员管理、营销等方面。例如,在推荐系统方面,可以通过分析用户的购买历史、浏览记录等信息,为用户推荐个性化的商品。

社交网络领域

数据挖掘可以用于好友推荐、群体分析、舆情监测等方面。例如,在好友推荐方面,可以通过分析用户的社交关系、兴趣爱好等信息,为用户推荐合适的好友。

总结

数据挖掘是一种探索数据中隐藏知识和信息的有效方法。在不同领域中,数据挖掘都有着广泛应用。学习通数据挖掘原理及应用,不仅可以提升数据挖掘技术的掌握程度,也能够拓展应用领域。

中国大学数据挖掘原理及应用

数据挖掘是一种从大数据集中自动提取信息和可用模式的过程。它涵盖了各种技术,如机器学习、统计学、人工智能和数据库系统。近年来,中国大学已经开始在数据挖掘领域进行研究,并应用于各种领域。

数据挖掘的原理

数据挖掘的原理可以分成以下四个步骤:

  1. 数据预处理:在数据挖掘之前,需要对原始数据进行清理、集成、转换和规范化等处理。
  2. 特征提取:在数据挖掘过程中,需要选择和提取与任务相关的有用特征。
  3. 模型选择:根据数据的性质和挖掘任务的要求,选择最适合的数据挖掘模型。
  4. 结果评估:评估挖掘结果的可靠性和有效性,并根据评估结果对模型进行调整和优化。

数据挖掘的应用

数据挖掘在各个领域都有广泛的应用,以下是一些中国大学在数据挖掘领域的应用实例:

金融领域

中国大学的金融领域研究主要应用于风险评估、股票预测、信贷评分等方面。例如,中国科学院计算技术研究所的研究人员应用数据挖掘技术对中国A股市场进行了深入分析,提出了一种基于多模型融合的股票预测方法,取得了较好的预测效果。

医疗领域

中国大学在医疗领域的研究主要应用于疾病诊断、药物研发等方面。例如,华中科技大学的研究人员利用数据挖掘技术对乳腺癌的早期诊断进行研究,提出了一种基于遗传算法和人工神经网络的诊断方法,取得了较高的准确率。

教育领域

中国大学在教育领域的研究主要应用于学生成绩预测、个性化教学等方面。例如,北京师范大学的研究人员利用数据挖掘技术对学生的学习行为和学习成绩进行分析,提出了一种基于机器学习的学生成绩预测模型,可以有效地辅助教师进行个性化教学。

社交网络领域

中国大学在社交网络领域的研究主要应用于用户行为分析、社交关系挖掘等方面。例如,清华大学的研究人员利用数据挖掘技术对微博用户的行为进行分析,提出了一种基于社交网络的用户画像方法,可以有效地帮助企业进行精准的广告投放。

总结

数据挖掘已经成为了一个多领域、多学科的交叉学科,并在中国大学得到了广泛的应用。未来,数据挖掘将继续发展,为各行各业的发展提供更多的支持。