mooc数据挖掘_8章节答案(慕课2023课后作业答案)

mooc数据挖掘_8章节答案(慕课2023课后作业答案)

1 绪论

测验

1、数据什么是挖掘KDD?
A、数据挖掘与知识发现
B、章节作业领域知识发现
C、答案答案文档知识发现
D、慕课动态知识发现

2、课后“8,数据000”和“10,000”表示:
A、数据
B、挖掘信息
C、章节作业知识
D、答案答案智慧

3、慕课人从出生到长大的课后过程中,是数据如何认识事物的?
A、聚类过程
B、挖掘分类过程
C、章节作业先分类,后聚类
D、先聚类,后分类

4、“8,000米是飞机飞行最大高度”与“10,000米的高山”表示:
A、数据
B、信息
C、知识
D、智慧

5、“飞机无法飞过高山”表示:
A、数据
B、信息
C、知识
D、智慧

单元作业

1、结合同学们的各自专业,给出数据挖掘典型案例,并且简述属于分类问题、聚类问题,还是关联规则问题?

2 认识数据

测验

1、下面哪个不属于数据的属性类型:
A、标称
B、序数
C、区间
D、相异

2、只有非零值才重要的二元属性被称作:
A、计数属性
B、离散属性
C、非对称的二元属性
D、对称属性

3、一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:
A、一年级
B、二年级
C、三年级
D、四年级

4、杰卡德系数用来度量非对称的二进制属性的相似性

5、欧式距离用来度量连续数值属性数据的相似性

单元作业

1、请利用sklearn库实现具体数据的直方图、箱线图、散点图。

3 数据预处理

测验

1、所谓高维数据,指的是
A、数据对象很多
B、数据属性很多
C、以上都正确
D、以上都错误

2、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:
A、0.821
B、1.224
C、1.458
D、0.716

3、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?
A、第一个
B、第二个
C、第三个
D、第四个

4、卡方测试用来度量离散标称属性数据的相关性

5、相关系数用来度量标称属性数据的相关性

单元作业

1、请利用sklearn库实现具体数据的PCA降维方法,z得分规范化

4 朴素贝叶斯分类

测验

1、考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为
A、0.75
B、0.35
C、0.4678
D、0.5738

2、朴素贝叶斯分类器的朴素之处在于:
A、只能处理低维属性
B、只能处理离散型属性
C、分类效果一般
D、属性之间的条件独立性假设

3、Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

4、可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类

5、贝叶斯分类器对离群点敏感

单元作业

1、请利用sklearn库实现具体数据的贝叶斯分类

5 决策树分类

测验

1、决策树中不包含一下哪种结点
A、根结点(root node)
B、内部结点(internal node)
C、外部结点(external node)
D、叶结点(leaf node)

2、以下哪些算法是分类算法
A、DBSCAN
B、ID3
C、K-Means
D、EM

3、决策树的父节点和子节点的熵的大小关系是什么?
A、决策树的父节点更大
B、子节点的熵更大
C、两者相等
D、根据具体情况而定

4、一个决策树包括如下哪些要素
A、测试节点
B、分支
C、叶子
D、以上均错误

5、采用决策树分类算法,连续数据如何处理?
A、连续数据离散化
B、选择最佳划分点分裂
C、连续数据每2个值之间形成分裂
D、以上均错误

单元作业

1、请利用sklearn库实现具体数据的决策树分类

6 k-均值聚类

测验

1、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链

2、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类

3、关于k-means算法,正确的描述是:
A、能找到任意形状的聚类
B、初始值不同,最终结果可能不同
C、每次迭代的时间复杂度是O(n^2),其中n是样本数量
D、不能使用核函数(kernel function)

4、K-Means算法中的初始中心点:
A、可随意设置
B、必须在每个簇的真实中心点的附近
C、必须足够分散
D、直接影响算法的收敛结果

5、下列说法正确的是
A、K-means算法能够解决有离群点的聚类问题
B、K-modes能够解决离散数据的聚类问题
C、K-means++能够解决初始点影响聚类效果的问题
D、K中心点能够解决有离群点的聚类问题

单元作业

1、请利用sklearn库实现具体数据的k-means算法

7 逻辑回归

测验

1、logistic回归是否对噪声敏感
A、是
B、否
C、以上均错误
D、无法判断

2、朴素的逻辑回归可以解决非线性的分类问题

3、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值

4、逻辑回归正则化主要包括L1正则化和L2正则化

5、数据规范化能够提高逻辑回归算法参数学习的效率

单元作业

1、请利用sklearn库实现具体数据的逻辑回归

8 关联规则挖掘

测验

1、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?
A、关联规则发现
B、聚类
C、分类
D、自然语言处理

2、数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务

3、具有较高的支持度的项集具有较高的置信度。

4、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。

5、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

期末考试

期末考试

1、运用云计算、数据挖掘以及模糊识别等人工智能技术,对海量的数据和信息进行分析和处理,对物体实施智能化的控制,指的是
A、可靠传递
B、全面感知
C、智能处理
D、互联网

2、“飞机必须飞得比山高”表示:
A、数据
B、信息
C、知识
D、智慧

3、在Logistic Regression 中,如果同时加入L1和L2范数,产生什么效果
A、可以做特征选择,并在一定程度上防止过拟合
B、能解决维度灾难问题
C、能加快计算速度
D、可以获得更准确的结果

4、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离
A、聚类
B、关联分析
C、分类
D、隐马尔科夫

5、在ID3算法中信息增益是指
A、信息的溢出程度
B、信息的增加效益
C、熵增加的程度最大
D、熵减少的程度最大

6、某超市研究销售纪录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的哪类问题:
A、关联规则发现
B、聚类
C、分类
D、自然语言处理

7、标称类型数据的可以利用的数学计算为:
A、众数
B、中位数
C、均值
D、方差

8、一组数据的最小值为12,000,最大值为98,000,利用最小最大规范化将数据规范到[0,1],则73,000规范化的值为:
A、0.513
B、0.612
C、0.716
D、0.845

9、在无人驾驶时,希望程序能够根据路况决策汽车的方向盘的旋转角度,那么该任务是?
A、分类
B、回归
C、聚类
D、降维

10、考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{ e}, { b, d}, { b, d, e}的支持度:
A、s({ e}) =0.8 s({ b, d})= 0.2 s({ b, d, e})= 0.2
B、s({ e}) =0.7 s({ b, d})= 0.3 s({ b, d, e})= 0.3
C、s({ e}) =0.6 s({ b, d})= 0.4 s({ b, d, e})= 0.3
D、s({ e}) =0.8 s({ b, d})= 0. 1 s({ b, d, e})= 0.1

11、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:
A、被重复的在模型中作用被加强
B、模型效果精度降低
C、如果所有特征都被重复一遍,则预测结果不发生变化
D、以上说法均错误

12、ID3算法在分类树构建中, 使用哪个度量来进行分类节点?
A、gini指标
B、信息增益
C、信息增益率
D、准确率

13、印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种
A、神经网络
B、遗传算法
C、模拟退火
D、穷举算法

14、以下哪些方法不可以直接来对文本分类?
A、Kmeans
B、决策树
C、支持向量机
D、KNN

15、什么观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A、边界点
B、离群点
C、核心点
D、质心

16、在logistic分类中,L1正则化和L2正则化的引入为了解决什么问题?
A、数据量不充分
B、训练数据不匹配
C、训练过拟合
D、训练速度太慢

17、将原始数据进行集成、变换是在以下哪个步骤的任务?
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘

18、数据库中某属性缺失值比较多时,数据清理采用哪种的方法?
A、忽略元组
B、平均值填充
C、盒状图法
D、以上均可

19、在进行聚类分析之前,给出少于所需数据的数据点,下面哪种方法最适合用于数据清理? 1. 剔除或增加变量;2. 去除异常值
A、1
B、2
C、1和2
D、都不能

20、数据挖掘算法主要有聚类算法、关联算法、决策树算法和回归分析等,各种算法用于解决不同的实际问题,某分行拟通过对县域机构数量与存款市场竞争力的相关性分析,进 而建立两者之间的函数表达式,用新思维拓展县域市场,提升县域存款的市场竞争力。则可以采用的是什么?
A、关联算法
B、决策树算法
C、聚类分析
D、回归分析

21、熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是什么?
A、1比特
B、2.6比特
C、3.2比特
D、3.8比特

22、考虑值集{ 12 24 33 2 4 55 68 26},其四分位数极差是?
A、31
B、24
C、55
D、3

23、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为?
A、18.3
B、22.6
C、26.8
D、27.9

24、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则

25、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等宽划分时(宽度为50),15在哪个箱子里?
A、第一个
B、第二个
C、第三个
D、第四个

26、属于定量的属性类型是?
A、标称
B、序数
C、区间
D、相异

27、将原始数据进行维度规约,数值规约是在以下哪个步骤的任务?
A、频繁模式挖掘
B、分类与预测
C、数据预处理
D、数据流挖掘

28、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是?
A、各类别的先验概率P(C)是相等的
B、以0为均值,sqr(2)/2为标准差的正态分布
C、特征变量X的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布

29、创建时间=1月2日是指?
A、创建时间表示属性,1月2日表示属性
B、创建时间表示属性值,1月2日表示属性值
C、创建时间表示属性,1月2日表示属性值
D、创建时间表示属性值,1月2日表示属性

30、对于泰坦尼克号灾难预测数据集(如下),下列是标称类型的属性是 ?
A、Survived:0表示遇难,1表示幸存
B、Pclass:1代表Upper,2代表Middle,3代表Lower
C、Sex:标识乘客性别
D、SibSp:兄弟姐妹及配偶的个数
E、Embarked:乘客登船口岸,可列举

31、对于泰坦尼克号灾难预测数据集,下列是对称二进制类型的属性是?
A、Survived:0表示遇难,1表示幸存
B、Pclass:1代表Upper,2代表Middle,3代表Lower
C、Sex:标识乘客性别
D、SibSp:兄弟姐妹及配偶的个数
E、Embarked:乘客登船口岸,可列举

32、身高和体重分别是什么类型?
A、高离散、体重离散
B、身高连续、体重连续
C、身高连续、体重离散
D、身高离散、体重连续

33、根据下表计算like_science_fiction和play_chess的卡方测试
A、507.93
B、23.6
C、89.3
D、134.6

34、对于如下表格训练集,请计算P(青年 | 购买)
A、2/9
B、4/9
C、6/9
D、1

35、对于如表格训练集,请计算P(购买)
A、9/14
B、5/14
C、5/9
D、1

36、对于如下训练集,计算购买电脑和不购买电脑不确定性的熵值
A、0
B、0.5
C、0.94
D、1

37、下面哪个不为属性的别名
A、元组
B、维度
C、特征
D、字段

38、下列哪个不是非监督数据离散化方法?
A、等宽法
B、等频法
C、聚类法
D、决策树法

39、下列哪个不为数据缩减?
A、降维
B、分类
C、降数据
D、数据压缩

40、下面哪种情况不会影响K-means聚类的效果?
A、数据点密度分布不均
B、数据点呈圆形状分布
C、数据中有异常点存在
D、数据点呈非凸形状分布

41、给定两个特征向量,以下哪些方法不能够计算这两个向量相似度?
A、欧式距离
B、夹角余弦(Cosine)
C、信息熵
D、曼哈顿距离

42、下列哪个不是数据对象的别名?
A、样品
B、实例
C、维度
D、元组

43、标称类型数据的可以实现什么的数学计算?
A、众数
B、中位数
C、均值
D、方差

44、采用决策树分类算法,连续数据如何处理,下列说法错误的是?
A、连续数据离散化
B、选择最佳划分点分裂
C、连续数据每2个值之间形成分裂
D、以上都不是

45、下列说法错误的是?
A、K-means算法能够解决有离群点的聚类问题
B、K-modes能够解决离散数据的聚类问题
C、K-means++能够解决初始点影响聚类效果的问题
D、K中心点能够解决有离群点的聚类问题

46、如下表所示的病例数据,Gender是对称属性,其余都是非对称属性,假设只计算非对称属性,则Jack和Mary的相异度为?
A、0.67
B、0.33
C、0.75
D、0.45

47、属性的别名
A、元组
B、维度
C、特征
D、字段

48、下列哪些是非监督数据离散化方法
A、等宽法
B、等频法
C、聚类法
D、决策树法

49、数据可视化方法。
A、直方图
B、柱状图
C、箱线图
D、散点图

50、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:
A、忽略元组
B、使用属性的平均值填充空缺值
C、使用一个全局常量填充空缺值
D、使用与给定元组属同一类的所有样本的平均值
E、使用最可能的值填充空缺值

51、数据缩减主要包括如下
A、降维
B、分类
C、降数据
D、数据压缩

52、数据清理中,处理缺失值的方法是
A、估算
B、整例删除
C、变量删除
D、成对删除

53、数据预处理主要包括的步骤
A、数据清洗
B、数据集成
C、数据规约
D、数据变换和离散化

54、分类模型主要包括如下
A、k-均值模型
B、决策树模型
C、贝叶斯模型
D、以上均错误

55、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是
A、这个被重复的特征在模型中的决定作用会被加强
B、模型效果相比无重复特征的情况下精确度会降低
C、NB可以用来做最小二乘回归
D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题

56、下列哪些数据挖掘算法不需要做数据归一化处理
A、K均值
B、线性回归
C、决策树
D、朴素贝叶斯

57、下面哪种情况会影响K-means聚类的效果
A、数据点密度分布不均
B、数据点呈圆形状分布
C、数据中有异常点存在
D、数据点呈非凸形状分布

58、给定两个特征向量,以下哪些方法可以计算这两个向量相似度?
A、欧式距离
B、夹角余弦(Cosine)
C、信息熵
D、曼哈顿距离

59、数据挖掘的预测建模任务主要包括哪几大类问题
A、分类
B、回归
C、模式发现
D、模式匹配

60、对于数据挖掘中的原始数据,存在的问题有
A、不一致
B、重复
C、不完整
D、含噪声
E、维度高

61、数据对象的别名
A、样品
B、实例
C、维度
D、元组
E、对象

62、标称类型数据的可以实现数学计算
A、众数
B、中位数
C、均值
D、方差
E、相等
F、加法
G、除法

63、序数类型数据的可以实现数学计算
A、众数
B、中位数
C、均值
D、方差
E、相等
F、加法
G、除法

64、区间标度类型数据的可以实现数学计算
A、众数
B、中位数
C、均值
D、方差
E、相等
F、加法
G、除法

65、比例标度类型数据的可以实现数学计算
A、众数
B、中位数
C、均值
D、方差
E、相等
F、加法
G、除法

66、数据集成需要解决的问题
A、模式集成
B、实体识别
C、数据冲突检测
D、不解决任何问题

67、下列哪些属于基于划分的聚类算法
A、K-means
B、K-modes
C、K-means++
D、K中心点

68、尼美(女,23岁,企业白领)是如何选择相亲对象的,尼美对于相亲对象的属性建模,总共包括哪些属性()
A、性别
B、长相
C、年龄
D、收入
E、职业

69、下列说法正确的是
A、过拟合是由于训练集多,模型过于简单
B、过拟合是由于训练集少,模型过于复杂
C、欠拟合是由于训练集多,模型过于简单
D、欠拟合是由于训练集少,模型过于简单

70、一个决策树包括如下哪些要素
A、测试节点
B、分支
C、叶子
D、端点

71、采用决策树分类算法,连续数据如何处理?
A、连续数据离散化
B、选择最佳划分点分裂
C、连续数据每2个值之间形成分裂
D、不处理

72、下列说法正确的是
A、K-means算法能够解决有离群点的聚类问题
B、K-modes能够解决离散数据的聚类问题
C、K-means++能够解决初始点影响聚类效果的问题
D、K中心点能够解决有离群点的聚类问题

73、决策树中包含一下哪些结点
A、根结点(root node)
B、内部结点(internal node)
C、外部结点(external node)
D、叶结点(leaf node)

74、下面哪个属于数据的属性类型
A、标称
B、序数
C、区间
D、相异

75、以下哪些算法是分类算法
A、朴素贝叶斯分类
B、ID3
C、K-Mean
D、EM

76、人从出生到长大的过程中,是如何认识事物的,下列说法错误的是
A、聚类过程
B、分类过程
C、先分类,后聚类
D、先聚类,后分类

77、朴素贝叶斯分类器的朴素之处在于,下列说法错误的是
A、只能处理低维属性
B、只能处理离散型属性
C、分类效果一般
D、属性之间的条件独立性假设

78、决策树的父节点和子节点的熵的大小关系是什么,下列说法错误的是
A、决策树的父节点更大
B、子节点的熵更大
C、两者相等
D、根据具体情况而定

79、简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,下列哪些不属于这种聚类类型
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类

80、当不知道数据所带标签时,下列哪些技术不能够促使带同类标签的数据与带其他标签的数据相分离?
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链

81、关于k-means算法,错误的描述是
A、能找到任意形状的聚类
B、初始值不同,最终结果可能不同
C、不能使用核函数(kernel function)
D、是聚类算法的一种

82、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种描述不属于数据挖掘的哪些问题?
A、关联规则发现
B、聚类
C、分类
D、自然语言处理

83、将原始数据进行集成,变换,维度规约,数值规约不属于以下哪些步骤的任务?
A、频繁模式挖掘
B、分类与预测
C、数据预处理
D、数据流挖掘

84、数据库中某属性缺失值比较多时,数据清理不能够采用的方法
A、忽略元组
B、平均值填充
C、盒状图法
D、众数填充

85、ID3算法在分类树构建中, 没有使用下面哪些度量来进行分类节点?
A、gini指标
B、信息增益
C、信息增益率
D、准确率

86、K-Means算法中的初始中心点,错误的描述是
A、可随意设置
B、必须在每个簇的真实中心点的附近
C、直接影响算法的收敛结果
D、不可随意设置

87、数据挖掘过程即将数据转换为知识的过程

88、数据清洗即将来自多个数据源的数据组合成一个连贯的数据源

89、分类是监督式机器学习。

90、分类分析主要包括二个步骤:学习建模、分类测试。

91、聚类是监督式机器学习。

92、直方图用来显示两组数据的相关性分布

93、聚类分析可以看作是一种非监督的分类。

94、数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

95、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

96、聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

97、如果一个对象不属于任何簇,那么该对象是基于聚类的离群点。

98、熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。

99、具有较高的支持度的项集具有较高的置信度。

100、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

101、皮尔逊相关系数可用来判断X和Y之间的因果关系。

102、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。

103、给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。

104、离群点可以是合法的数据对象或者值。

105、“飞机必须飞得比山高”表示智慧。

106、所谓高维数据,指的是数据属性很多。

107、所谓特征选择,是指从数据中,选择有代表性的属性。

108、一组数据的均值为54,000 ,标准差为16,000,则 73,000规范化的值为0.1875。

109、假设两只股票A和B具有在1个星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。如果股票都受到同行业的趋势,他们的价格协方差是1.2。

110、一维空间的7个点1 2 3 8 9 10 25,根据划分方法聚类质量评价准则,设置k为2时,(1,2,3)(8,9,10,25)聚类的系数E值为34.5。

111、一维空间的7个点1 2 3 8 9 10 25,根据划分方法聚类质量评价准则,设置k为2时,(1,2,3,8)(9,10,25)聚类的系数E值为13.9。

112、一所学校里面有 60% 的男生(boy),40% 的女生(girl) 。男生总是穿长裤(pants),女生则一半穿长裤一半穿裙子。随机选取一个穿长裤的学生,他(她)是女生的概率是0.5。

113、对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据信息熵值为0。

114、对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据信息熵值为1。

115、对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。

116、对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据基尼GINI值为0.5。

117、对于决策树,某一属性划分的一个分支中包含C1类别的数据有0条,C2类别的数据有6条,请计算该属性划分时,该分支的数据分类错误Classification Error值为0。

118、对于决策树,某一属性划分的一个分支中包含C1类别的数据有3条,C2类别的数据有3条,请计算该属性划分时,该分支的数据分类错误Classification Error值为0。

119、当不知道数据所带标签时,可以使用分类技术促使带同类标签的数据与带其他标签的数据相分离。

120、决策树模型中应处理连续型属性数据的方法之一为:根据信息增益选择阈值进行离散化。

121、某超市研究销售纪录数据后发现,买面包的人很大概率也会购买牛奶,这种属于数据挖掘的聚类问题。

122、标称类型数据的可以计算其均值。

123、区间标度类型数据的可以计算其均值。

124、比率标度类型数据的可以计算其均值。

125、序数类型数据的可以计算其均值。

126、ID3算法在分类树构建中,使用信息增益度量来进行分类节点。

127、决策树分类器可以对文本数据分类。

128、在logistic分类中,L1正则化和L2正则化的引入为了解决训练过拟合的问题。

129、将原始数据进行集成、变换是属于数据预处理步骤的任务。

130、数据库中某属性缺失值比较多时,数据清理可以采用忽略元组的方法。

131、将原始数据进行维度规约,数值规约属于频繁模式挖掘步骤的任务。

132、属性的别名也可称为维度、特征、字段。

133、决策树法是非监督数据离散化方法。

134、数据可视化方法主要包括直方图、柱状图、箱线图、散点图等方法。

135、数据缩减主要包括降维、降数据、数据压缩。

136、数据预处理主要包括数据清洗、数据集成、数据规约、数据变换和离散化四个步骤。

137、k-均值属于分类模型。

138、数据点密度分布不均会影响K-means聚类的效果。

139、夹角余弦能够计算这两个向量相似度。

140、对于数据挖掘中的原始数据,主要存在不一致、重复、不完整、含噪声、维度高等问题。

141、样品是数据对象的别名。

142、实例是数据对象的别名。

143、维度是数据对象的别名。

144、元组是数据对象的别名。

145、标称类型数据的可以实现众数计算

146、标称类型数据的可以实现中位数计算

147、K-modes能够解决离散数据的聚类问题。

148、K-means++能够解决初始点影响聚类效果的问题。

149、K中心点能够解决有离群点的聚类问题。

150、属性的别名也可称为实例。

151、“飞机的飞行高度3000米”表示信息。

152、先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。

153、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数

154、数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

155、可以利用概率统计方法估计数据的分布参数,再进一步估计待测试数据的概率,以此来实现贝叶斯分类

156、贝叶斯分类器对离群点敏感

157、序数类型数据的可以实现中位数计算

158、区间标度类型数据的可以实现加法计算。

159、序数类型数据的可以实现乘法计算

160、比率标度类型数据的可以实现加法计算。

161、数据集成需要解决模式集成、实体识别、数据冲突检测等问题

162、K-means属于基于划分的聚类算法

163、一个决策树通常包括测试节点、分支、叶子三个要素

164、K-means算法能够解决有离群点的聚类问题。