0.0816

五煦查题

快速找到你需要的那道考题与答案

尔雅数据挖掘_3章节答案(学习通2023题目答案)

16 min read

尔雅数据挖掘_3章节答案(学习通2023题目答案)

数据挖掘期末考试

数据挖掘期末考试主观题部分

1、尔雅有如下表所示数据集,数据属性A是挖掘连续属性,属性B和C是章节二元属性。 一个规则是答案强规则,是学习指他的支持度超过15%且置信度超过60%。该表给出的通题数据支持一下两个强规则:,,目答 (1)计算这两个规则的支持度和置信度; (2)为了使用传统的Apriori算法,需要对属性A离散化。尔雅若采用等宽分箱方法,数据属性分为4个箱,挖掘请计算在此分箱方法下的章节所有频繁模式,并分析这样处理后能否发现上述规则。答案 A B C 1 1 1 2 1 1 3 1 0 4 1 0 5 1 1 6 0 1 7 0 0 8 1 1 9 0 0 10 0 0 11 0 0 12 0 1

2、学习基于以下数据集完成题目(要求写出求解过程): 编号 属性1 属性2 属性3 类 1 A 70 真 1 2 A 90 真 2 3 A 85 假 2 4 A 95 假 2 5 A 70 假 1 6 B 90 真 1 7 B 78 假 1 8 B 65 真 1 9 B 75 假 1 10 C 80 真 2 11 C 70 真 2 12 C 80 假 1 13 C 80 假 1 14 C 96 假 1 (1)请根据ID3算法画出决策树; (2)采用朴素贝叶斯方法,通题预测描述属性为“B”,“70”,“假”的样本的分类结果?

3、基于如下表所示的数据集,完成题目 学号 语文 数学 英语 综合 1 68 48 70 80 2 92 95 90 89 3 80 79 80 78 4 72 82 80 82 5 60 46 60 52 6 88 67 82 72 7 78 87 85 80 8 95 90 90 89 9 78 88 81 85 10 58 60 50 42 11 95 92 89 92 12 88 86 78 86 (1)选取簇数为3,采用合适的距离度量指标,利用K-均值算法对数据集进行聚类分析; (2)阐述基于聚类的离群点检测技术的基本思想。

4、简述数据特征提取的目的和主要方法。

5、简述分类器的性能评价方法。

6、目前数据挖掘是一个研究热点,结合自己感兴趣的领域,讨论从特定领域数据中可以挖掘哪些感兴趣的知识,并分析在实施过程中会涉及到哪些方法。

学习通数据挖掘_3

一、数据挖掘的预处理

数据挖掘的预处理是指在进行数据挖掘之前对数据进行处理的一系列操作,其目的是为了保障数据挖掘模型的可靠性和有效性。

1. 数据清洗

数据清洗是指对数据中存在的不完整、错误、不一致、重复、冗余等问题进行处理的一系列操作,包括缺失值处理、异常值处理、重复值处理、一致性处理等。

a. 缺失值处理

缺失值是指在数据中某个变量或某些变量的数值缺失,常见的缺失原因包括数据采集错误、人为删除等。缺失值的处理方法包括删除缺失值、插值处理等。

b. 异常值处理

异常值是指在数据中某个变量或某些变量的数值偏离正常值过多的情况,常见的异常值原因包括数据采集错误、计算错误等。异常值的处理方法包括删除异常值、替换处理等。

c. 重复值处理

重复值是指在数据中某个记录的数据与其他记录的数据相同的情况,常见的重复值原因包括数据采集重复、数据存储重复等。重复值的处理方法包括删除重复值、合并处理等。

d. 一致性处理

一致性是指在数据中某个变量或某些变量的数据与其他变量的数据相符的情况,常见的一致性问题包括单位不一致、数据类型不一致等。一致性处理的方法包括单位换算、数据类型转换等。

2. 数据集成

数据集成是指将多个数据源的数据进行整合的一系列操作,常见的数据集成方法包括数据拼接、数据合并等。

3. 数据变换

数据变换是指将原始数据进行转换以满足数据挖掘需求的一系列操作,常见的数据变换方法包括属性变换、数据规范化、数据离散化等。

4. 数据归约

数据归约是指将数据进行简化以提高数据挖掘效率的一系列操作,常见的数据归约方法包括抽样、数据压缩等。

二、数据挖掘的建模

数据挖掘的建模是指根据处理后的数据以及实际业务需求,选择合适的数据挖掘算法进行模型构建的一系列操作。

1. 分类

分类是指根据已知的分类标准对未知数据进行分类的一种数据挖掘方法,常见的分类算法包括决策树、朴素贝叶斯、支持向量机等。

2. 聚类

聚类是指将数据集合分成若干个互不相交的子集,使得每个子集中的数据对象之间的相似度较高,而不同子集中的数据对象相似度较低的一种数据挖掘方法,常见的聚类算法包括K均值、层次聚类等。

3. 关联规则挖掘

关联规则挖掘是指在大规模数据中寻找项集之间的关系的一种数据挖掘方法,常见的关联规则算法包括Apriori、FP-Growth等。

4. 时间序列分析

时间序列分析是指对时序数据进行建模和预测的一种数据挖掘方法,常见的时间序列分析算法包括ARIMA、GARCH等。

三、数据挖掘的评估

数据挖掘的评估是指对数据挖掘模型进行评估,确定其可靠性和有效性的一系列操作,常见的评估方法包括交叉验证、ROC曲线、AUC值等。

1. 交叉验证

交叉验证是指将数据集分成若干份,依次将每份数据作为测试集,其他数据作为训练集,以确定数据挖掘模型的可靠性和有效性的一种评估方法。

2. ROC曲线

ROC曲线是指以假阳性率为横轴,真阳性率为纵轴绘制的一条曲线,用于评估分类模型的效果,常用于医学诊断、信用评级等领域。

3. AUC值

AUC值是指ROC曲线下的面积,用于评估分类模型的效果,其取值范围为0~1,值越接近1说明模型效果越好。

四、数据挖掘的应用

数据挖掘的应用非常广泛,包括金融风控、市场营销、医学诊断、安全管理等领域。

1. 金融风控

金融风控是指利用数据挖掘技术对金融风险进行预测和控制的一种应用,常见的金融风控应用包括信贷风险评估、欺诈检测等。

2. 市场营销

市场营销是指利用数据挖掘技术对市场进行分析和预测的一种应用,常见的市场营销应用包括用户画像、营销预测等。

3. 医学诊断

医学诊断是指利用数据挖掘技术对医学数据进行分析和预测的一种应用,常见的医学诊断应用包括癌症诊断、疾病预测等。

4. 安全管理

安全管理是指利用数据挖掘技术对网络、信息等进行分析和预测的一种应用,常见的安全管理应用包括网络入侵检测、恶意代码检测等。

五、总结

数据挖掘是一种非常重要的数据分析技术,具有广泛的应用前景。在进行数据挖掘之前,需要进行一系列的预处理操作,以保证数据的可靠性和有效性。在选择数据挖掘算法进行建模时,需要根据实际业务需求选择合适的算法。在进行数据挖掘模型的评估时,需要采用合适的评估方法进行评估,以保证模型的可靠性和有效性。