mooc2020春数据挖掘在生物医学中的应用(辛怡)期末答案(慕课2023完整答案)

分类: 理学题库发布于:2024-06-02 12:54:04ė35867次浏览619条评论

mooc2020春数据挖掘在生物医学中的应用(辛怡)期末答案(慕课2023完整答案)

第二讲 机器学习概览

第二讲 测验

1、春数机器学习可以用于哪些情形?
A、据挖掘生人类暂时无法解释的物医专业知识
B、模型需要基于大量数据
C、学中凭借经验的用辛怡期重复工作
D、模型在某些应用场合需要定制

2、末答以下哪些属于有监督学习?
A、案慕案人工神经网络
B、课完支持向量机
C、整答聚类
D、春数决策树

3、据挖掘生机器学习的物医类型有?
A、半监督学习
B、学中有监督学习
C、用辛怡期无监督学习
D、末答在家学习

4、有监督学习的训练样本属性是已知的

5、半监督学习没标签数据的数量常常远大于有标签数据的数量。

第四讲 模型的评估方法

第四讲测验

1、不平衡问题的领域有?
A、医学诊断
B、预测罕见事件
C、检测欺诈
D、预测故障/失效

2、识别任务中,召回率是被预测为“正面”的测试数据中结果是正确的比例。

第五讲 回归分析

第五讲测验

1、已知变量x与y正相关,且由观测数据算得x的样本平均值为3,y的样本平均值为3.5,则由该观测数据算得的线性回归方程可能是
A、y=0.4x+2.3
B、y=2x-2.4
C、y=-2x+9.5
D、y=-0.3x+4.4

2、在两个变量的回归分析中,作散点图是为了
A、直接求出回归直线方程
B、直接求出回归方程
C、根据经验选定回归方程的类型
D、估计回归方程的参数

3、下列两个变量之间的关系,哪个是确定的函数关系
A、学生的性别与数学成绩
B、人的工作环境与健康状况
C、正方形的边长与面积
D、儿子的身高与父亲的身高

4、在线性回归方程y=a+bx中,回归系数b表示
A、当x=0时,y的平均值
B、x变动一个单位时,y的实际变动量
C、y变动一个单位时,x的平均变动量
D、x变动一个单位时,y的平均变动量

5、若患者在ICU的死亡风险值y与血钠波动x%建立的回归方程y=0.1+0.5x,下列说法正确的
A、血钠波动每增加1%,患者死亡风险值增加0.6
B、血钠波动每增加1%,患者死亡风险值增加0.05
C、血钠波动每增加1%,患者死亡风险值增加0.5
D、血钠波动每增加1%,患者死亡风险值增加0.1

6、若根据x与y之间的一组数据求得两个变量之间的线性回归方程为y=a+bx,已知:数据x的平均值为2,数据y的平均值为3,则
A、回归直线必过点(2,3)
B、回归直线不一定过点(2,3)
C、点(2,3)在回归直线上方
D、点(2,3)在回归直线下方

7、下列结论正确的是
A、函数关系是一种确定性关系
B、相关关系是一种非确定性关系
C、回归分析是对具有函数关系的两个变量进行统计分析的一种方法
D、回归分析是对具有相关关系的两个变量进行统计分析的一种方法

8、广义加性模型由什么特点
A、可以自动对自变量和因变量进行非线性关系的建模
B、非线性拟合可能会提高对因变量的预测精度
C、在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应
D、非线性拟合可能会降低对因变量的预测精度

9、广义加性模型的拟合方法有
A、自然样条
B、光滑样条
C、多项式回归
D、局部回归

10、下列说法正确的是
A、当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系
B、当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系
C、把非线性回归化为线性回归为我们解决问题提供了一种方法
D、当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系

11、为了考察两个变量x和y的线性相关性,甲、乙两个同学各自独立地做10次和15次实验,并且利用线性回归方法,求得回归直线分别为L1和L2。已知在两个人的实验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t,那么下列说法错误的是
A、直线L1和L2有交点(s,t)
B、直线L1和L2相交,但交点未必是点(s,t)
C、直线L1和L2由于斜率相等,所以必定平行
D、直线L1和L2必定重合

12、线性回归模型通常采用最小二乘法来估计回归系数

13、广义加性模型在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应。

14、建立回归方程后需要对回归系数β进行假设检验

15、回归分析的研究对象是具有相关关系的变量。

第六讲 分类方法(二)

第六讲测验

1、随机森林中分类树的多样性来自于?
A、样本扰动,但没有自变量扰动
B、自变量扰动,但没有样本扰动
C、样本扰动和自变量扰动
D、既没有样本扰动也没有自变量扰动

2、k最近邻法中,随着参数k的变大,最近邻分类器的偏差和方差将如何变化?
A、偏差增大,方差增大
B、偏差增大,方差减小
C、偏差减小,方差增大
D、偏差减小,方差减小

3、分类树和回归树分别被用于预测什么类型的变量?
A、定性变量,定性变量
B、定性变量,定量变量
C、定量变量,定量变量
D、定量变量,定性变量

4、logistic回归分析适用于应变量为
A、连续性变量
B、正态分布变量
C、偏态分布变量
D、分类变量

5、与logistic回归模型的回归系数有关的指标是
A、发病率
B、生存率
C、优势比
D、构成比

6、下面哪些情况会导致模型过拟合
A、缺乏代表性样本
B、决策树很小
C、决策树过于复杂
D、样本中存在噪声或错误标签

7、目前集成树的产生方法大致可以分为两类。以下哪些算法属于个体分类树之间不存在强依赖、可同时生成的并行化方法这一类?
A、Bagging
B、Boosting
C、随机森林
D、AdaBoost

8、在决策树中,哪些指标可以作为选择节点属性的准则。
A、RSS
B、分类错误率
C、基尼指数
D、熵

9、LDA和QDA都假设每一类观测服从正态分布,但是LDA假设每一类观测都有自己的方差(或者协方差矩阵)。

10、在构建回归树的过程中,一般采用递归二叉分裂的方法来划分自变量空间。这种方法的贪婪性体现在构建树的每一过程中,“最优”分裂仅限于某一局部过程,而不是针对全局过程。

11、在分类树中,节点的纯度越高,则互熵的值越大。

12、从偏差-方差权衡的角度看,AdaBoost主要关注降低偏差,因此AdaBoost能基于泛化性能相当弱的分类器构建出很强的集成分类器。

13、贝叶斯分类器将待判别的样本分类到使得样本的后验概率达到最大的那个类中。

14、决策树是一种无监督的算法

15、我们采用最大似然法来估计logistic模型中的参数

16、研究者对肺癌与吸烟等因素关系进行了研究,收集了相关数据并进行logistic回归分析,若要估计吸烟对肺癌影响程度,需要计算OR值。

第六讲 分类方法(三)决策树

第六讲 测验2

1、在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最高的特征,以下可以作为得分的是?
A、熵
B、基尼系数
C、训练误差
D、以上都是

2、在决策树学习过程中,哪些情况可能会导致问题数据(特征相同但是标签不同)?
A、数据错误
B、数据有噪音
C、现有的特征不足以区分或决策
D、以上都是

3、在构建决策树时,以下属于处理有多个值的特征的方法的是
A、处理成多个二值划分
B、处理成多个划分
C、以上都是
D、以上都不是

4、在构建决策树时,以下属于处理实值特征的方法的是
A、用比较测试将数据划分为两个部分
B、处理成多个二值划分
C、选择范围过滤
D、以上都不是

5、在下列哪些情况下可以为标签创建叶节点。
A、达到一个足够小的训练误差
B、剩下一定数量/比例的数据
C、所有数据属于同一个类
D、所有数据具有相同的特征值

6、树的内部结点用特征作标签,树枝用是否符合特征来标签。

7、过拟合发生在模型太过偏向训练数据时,对于决策树可以采用修剪的方法阻止过拟合。

8、对于实值特征,可以用比较测试将数据划分为两部分,或者选择范围过滤。

9、决策树的节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。

10、过拟合发生在模型太过偏向训练数据时。

11、决策树的修剪可以采用正则化的方法。

12、我们要用概率模型对数据和标签进行学习,需要数据/标签对服从某种概率分布,称为 。

13、在决策树学习中将已生成的树进行简化的过程称为 。

第七讲 支持向量机

第七讲测验

1、怎样理解非完美分类的超平面分类器?
A、允许小部分训练观测被误分。
B、允许大部分训练观测被误分。
C、两种说法都对。
D、两种说法都不对。

2、SVM算法的性能取决于?
A、核函数的选择
B、核函数的参数
C、软间隔参数C
D、以上都是

3、SVM算法的最小时间复杂度是O(n*n)。基于这一点,以下哪种规格的数据集并不适用于该算法?
A、大数据集
B、小数据集
C、中数据集
D、不受数据集大小的影响

4、假定现在有一个四分类问题,你要用One-vs-all策略训练一个SVM的模型,你需要训练几个SVM模型?
A、1
B、2
C、3
D、4

5、常用的核函数有?
A、线性核
B、径向核
C、拉普拉斯核
D、Sigmoid核

6、下面哪些是SVM在实际生活中的应用?
A、文本分类
B、图片分类
C、新闻聚类
D、手写字体识别

7、支持向量分类器的判断规则只由训练观测的一部分(支持向量)确定。

8、支持向量机通过使用核函数来扩大特征空间。

9、支持向量机可看作是一类简单、直观的最大间隔分类器的推广。

10、支持向量是最靠近决策表面的数据点。

第十讲 人工神经网络

第十讲测试

1、非线性机器学习算法具有以下的什么特性?
A、针对难以用准则来描述的复杂模型
B、能够达到更深层次的抽象
C、能够进行广泛使用的分类算法
D、以上都是

2、神经网络的学习步骤包括:1、求得权重等参数,2、定义代价函数,3、对测试数据进行预测,4、根据样本数据和标签采用梯度下降法进行学习,步骤的正确顺序为:
A、4213
B、2413
C、2143
D、4123

3、使用均方误差作为代价函数,有什么特点?
A、形式简单
B、通俗易懂
C、容易出现饱和现象
D、容易陷入局部最优解

4、感知器可以解决一下哪些问题?
A、实现逻辑关系中的与
B、实现逻辑关系中的或
C、实现逻辑关系中的非
D、线性分类和线性回归问题

5、神经网络具有下面哪几个特点?
A、能充分逼近复杂的非线性关系
B、具有高度的容错能力
C、具有自组织能力
D、可以并行分布处理

6、以下会造成梯度消失的激活函数有
A、sigmoid函数
B、tanh函数
C、ReLU函数
D、softplus函数

7、单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。

8、前馈神经网络中偏置单元可以有输入。

9、在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。

10、神经网络中的神经元有两个状态:兴奋、抑制。这两个状态由阈值决定。

11、前馈式神经网络层间有反馈。

12、小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息

13、小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数

14、在 模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元

第十一讲 深度学习

第十一讲测验

1、卷积层具有以下哪些特点?
A、稀疏交互
B、参数共享
C、等变表示
D、以上三个都是

2、以下能够避免过拟合的方法有?
A、数据增强,从数据源头获取更多数据
B、增加训练次数
C、增加网络的深度
D、正则化

3、以下能够避免梯度消失和梯度爆炸的方法有?
A、梯度裁剪,给定梯度的上下阈值
B、批规范化
C、使用残差网络结构
D、采用带记忆的网络结构,如LSTM

4、以下哪些属于深层网络模型?
A、AlexNet
B、VGG
C、GoogleNet
D、ResNet

5、池化层可以非常有效地缩小参数矩阵的尺寸,从而减少后面的卷积层或者全连接层中的参数数量。

6、多伦多大学的Geoffrey Hinton教授利用预训练的方式来缓解局部最优解的问题,提出了真正意义上的深度神经网络,从而掀起了第二次机器学习热潮——“深度学习”。

7、正则化方法是一种通过引入额外的新信息来解决机器学习中过拟合问题的方法。

8、全连接的神经网络应用于图像处理时可能会导致一个严重的参数数量的膨胀的问题。

9、卷积层的输出通常由3个量来控制,它们分别是深度、步幅和什么?

10、深度神经网络和浅度神经网络模型具有相似的结构,由输入层、输出层和什么构成?

11、我们将在深度网络学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃的方法称作什么?

第十二讲 聚类分析

第十二讲测验

1、以下哪些方法可以确定K-均值算法已经完成?
A、聚类的划分不再改变
B、聚类中心不再改变
C、已完成了预定次数的迭代
D、以上三种均是

2、以下哪些算法可以处理非高斯数据?
A、K-means算法
B、EM算法
C、谱聚类算法
D、以上三种算法都可以

3、无监督学习可以应用于哪些方面?
A、图像处理
B、生物信息学:学习基因组
C、商业客户细分(即分组)
D、学习没有任何标签的聚类/群组

4、以下哪些选项是K-均值聚类面临的问题?
A、K的选择具有挑战性
B、硬聚类并不总是正确的
C、贪婪算法存在的问题
D、关于数据的球形假设(到聚类中心的距离)

5、聚类可以应用于哪些方面?
A、基因表达数据的研究
B、面部聚类
C、搜索结果聚类
D、新闻搜索

6、在K-均值算法中,以下哪些方法可以用于随机种子的选择?
A、随机选择数据作为中心
B、空间中的随机位置作为中心
C、尝试多个初始起点
D、使用另一个聚类方法的结果进行初始化

7、EM算法可以应用于以下哪些方面?
A、学习贝叶斯网络的概率
B、EM-聚类
C、训练HMM
D、学习微信好友网络

8、好的聚类分析达到的效果是:类内相似度高,类间相似度低

9、两个向量之间的余弦距离等于1减这两个向量的余弦相似度。

10、K-均值算法需要提前指定类的个数K。

11、K-means和EM聚类之间的主要区别之一是EM聚类是一种“软”聚类算法。

12、监督学习的训练集时有标签的数据。

13、在文本聚类中,欧氏距离是比较适合的。

14、无监督学习中除了聚类,另一种是什么?

15、我们将一个数据可以属于多个类(概率)的聚类称作什么?

16、EM算法中,E代表期望,M代表什么?

第十四讲 关联规则分析

第十四讲 小测验

1、如下哪些才是频繁项集?
A、满足最小支持度的项集
B、频繁出现的项集
C、满足最小置信度的项集
D、出现次数最多的项集

2、先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的

3、同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则

4、如果规则X →Y-X不满足置信度阈值,则形如X‘→Y-X’的规则一定也不满足置信度阈值,其中X‘是X的子集。

5、最大频繁项集的直接超集都不是频繁的,通过全部最大频繁项集可以导出所有频繁项集

6、最大频繁项集都是闭项集

7、如果一个项集是非频繁的,则它的所有超集也一定是非频繁的

随着信息技术的不断发展,数据挖掘在各个领域都有广泛应用。生物医学领域作为一个数据量大、信息密度高的领域,数据挖掘在其中的应用更是不可或缺。学习通2020春数据挖掘课程的学习,让我更加深入地了解了数据挖掘在生物医学中的应用。

1.生物数据挖掘的基础

生物医学领域的数据来自于不同的来源,如基因、蛋白质、代谢产物等。这些数据包含着丰富的信息,但也面临着数据量大、复杂度高的问题。因此,在进行生物数据挖掘前,首先要理解生物数据的特点。

举个例子,基因序列比较分析是生物数据挖掘中的一个重要应用。基因序列是由A、T、C、G四个碱基组成的字符串,不同的基因通过不同的排列方式形成了不同的基因序列。由于基因序列的长度一般很长,比较分析需要用到字符串相似度比较算法。此外,由于基因序列在进行进化过程中会发生突变,因此需要对基因序列进行树形结构的分析,以便找到不同物种之间的共同祖先。

2.生物数据挖掘的应用

生物数据挖掘的应用非常广泛,下面我们来介绍几个常见的应用场景:

2.1 基因表达谱分析

基因表达谱是指在特定条件下,细胞或组织中基因表达产物的数量和种类。基因表达谱分析可以帮助我们研究基因的功能,发现有关疾病治疗的新目标。在生物数据挖掘中,我们可以通过聚类分析来寻找基因表达谱中的模式,以及通过生物网络分析来研究不同基因之间的相互作用。

2.2 蛋白质结构预测

蛋白质是细胞内最基本的功能分子之一,它的三维结构是决定其功能的重要因素。但是,实验确定蛋白质的三维结构需要耗费大量时间和金钱。因此,生物数据挖掘可以通过使用蛋白质序列和相关信息来预测蛋白质的三维结构。此外,蛋白质结构预测也可以帮助我们发现新的药物治疗靶点。

2.3 药物发现

药物发现是生物医学领域中的热门话题之一。通过生物数据挖掘,我们可以从大量的化合物中筛选出具有治疗效果的化合物。在这个过程中,需要运用到机器学习和人工智能等技术,帮助我们对化合物进行分类和预测,从而降低药物开发的成本和时间。

3.生物数据挖掘的挑战

尽管生物数据挖掘在实际应用中有着广泛的应用前景,但也存在一些困难和挑战。

3.1 数据不完整

生物数据往往存在着不完整和不准确的情况,这可能会影响数据挖掘的结果。例如,基因表达谱分析中,由于技术限制或实验条件的限制,可能无法获得全部基因表达数据。因此,需要运用到不完整数据的挖掘技术,如矩阵分解等。

3.2 数据复杂度高

生物数据具有很高的复杂度,例如基因序列的长度往往很长,因此需要进行特定的分析和处理。此外,生物数据通常在多个不同层次上进行描述,如基因、蛋白质、代谢物等。因此,需要运用到多尺度分析和数据集成等技术,帮助我们对复杂数据进行挖掘。

3.3 模型建立和验证

在进行生物数据挖掘的过程中,建立合理的模型和算法以及验证其准确性是非常重要的。由于生物数据的复杂性和不确定性,模型建立和验证需要运用到机器学习和统计学等领域的知识。此外,也需要对实验数据进行有效性验证,以确保结果的可靠性。

4.结语

生物数据挖掘是生物医学领域中不可或缺的技术手段之一。通过对生物数据的挖掘和分析,可以帮助我们更好地理解生命的本质,发现新的治疗方法和靶点。但是,在实际应用中,生物数据挖掘还面临着很多的困难和挑战。因此,我们需要不断地完善相关技术和算法,以更好地应对生物数据挖掘的需求。



Ɣ回顶部