mooc探索数据的奥秘_1章节答案(mooc完整答案)

第三讲数据搜集与准备

1-3单元测验

1、探索人类探索世界的数据第四科学范式是指
A、实验
B、秘章理论
C、节答计算
D、案m案数据科学

2、整答以下关于大数据的探索特点描述，错误的数据是
A、大数据是秘章指体量非常大的结构化数据
B、大数据具有种类繁多、节答速度快时效高的案m案特点
C、大数据的整答价值密度相对较低
D、数据量大到常常需要并行计算处理

3、探索以下关于数据科学的数据说法，你认为正确的秘章是
A、数据科学其实就是统计学
B、数据科学就是机器学习
C、数据科学就是传统意义的“科学”，不必过多考虑工程应用
D、数据科学涉及多学科与工程应用的融合与交叉

4、一个完整的数据科学项目，应起始于
A、问题的确定
B、数据搜集
C、建立高大上的模型
D、目标制定

5、关于模型的评价，以下说法中不正确的是：
A、模型采用什么样的评价指标和具体的模型类型密切相关
B、对于一个有效的数据科学模型，其评价指标需优于以往实现同类任务的模型所实现的指标
C、在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可
D、分类模型的性能评价常规采用混淆矩阵

6、又到了大学新生入学的时间。你作为学生会中的老干部，很荣幸领到了一项为新生匹配舍友的任务，每四个新生同住一间宿舍。有无穷活力的你，决定利用你所了解的数据科学来实现自动匹配，让个性、爱好相似的人成为舍友。请问，从数据科学的观点，这是一个什么问题？
A、分类
B、聚类
C、关联化
D、特征提取

7、一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？
A、分类
B、关联化
C、特征提取
D、预测

8、以下哪些技术支撑了现今的数据时代？
A、传感技术
B、互联网与通信技术
C、存储技术
D、航天技术

9、以下哪些是数据？
A、你听讲座时的录音文件
B、十字路口的监控视频
C、传感器采集到的你的生命体征信息
D、你在朋友圈里发布的动态

10、以下说法正确的是：
A、问题和目标，都涉及两个层面：用户层面和数据科学层面。
B、用户层面我们面临的一般是一个现实世界中的具体问题。
C、用户层面的问题与目标涉及到最后项目的验收，因此一旦明确，也就指出了我们努力的方向和路径。
D、数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。

11、“张大妈服用我们的产品治好了多年的老寒腿”，为什么不能作为产品有效的科学依据？
A、样本容量太小
B、存在抽样偏差
C、未考虑混杂因素
D、单个个体不能代表总体

12、一个数据科学项目，可能涉及的人员包括项目出资方、客户（或用户）、数据科学家、数据架构师和运营工程师，不同的角色有不同任务，大家各有其专业领域，各司其职即可，不要相互影响。

13、现在的模型功能非常强大，所以拿到数据以后，可以直接建模，让模型自动化分析。

14、明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设。

15、根据前提假设，只要能设计出对应的数据构成，我们就可以进入数据收集。

16、不同的假设很可能会涉及不同的数据，最终导致不同的研究内容。

17、确定数据的构成，一般是指建立一张不可再分的二维表。表中一行代表一个样本，一列代表样本的一个特征或属性。

18、传统统计学认为样本容量大于30就具备统计学意义了，所以大数据时代的数据，哪怕不是全部数据，也可以有效代表总体。

19、抽样偏差（Sampling bias）是指从总体中非随机性抽样带来的系统性错误。

20、产生“辛普森悖论”的主要原因是没有排除混杂因素的影响。

21、所谓混杂因素，是指那些不是我们的考察对象，但却可能对结果造成影响的因素。

22、在一个数据科学项目中，最核心的人员是（）

23、明确问题与目标，都包含两个层面：现实层面和（）层面

24、样本真实反映总体的两个前提条件是：1.样本容量足够大；2.（）

25、样本真实反映总体的两个前提条件是：1.（）；2.无偏抽样

第四讲 Python简介

4单元测验

1、Pandas.read_csv函数读取数据文件时，指定参数（）（也就是为其赋值）可以实现数据的流读取，即不将数据一次性加载，而是以连续流的方式加载。
A、chunksize
B、index
C、header
D、delimiter

2、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print ('hello') 会在输出区打印（）次 hello
A、2
B、1
C、8
D、7

3、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print ('hello') 会在输出区打印（）次 xixi
A、1
B、2
C、4
D、3

4、在Jupyter Notebook中执行以下代码，在输出区会打印（）： my_list=['haha',True, 56,7,8,9,10] print（my_list[1:3]）
A、[True,56]
B、['haha',True]
C、[56,7]
D、[9,10]

5、我想创建一个其中元素可以被修改、同时支持不同数据类型的数据结构，可以选择以下的：
A、list（列表）
B、tuple（元组）
C、set（集合）
D、Pandas的DataFrame（数据框）

6、以下不允许被修改的数据结构是
A、list
B、tuple
C、dict
D、set
E、DataFrame

7、字典结构中的键（key），可看做一种索引，可以是列表、元组、集合等。

8、Python支持for循环和while循环，两种执行基本一样，都不需要额外用代码在循环体中修改循环变量。

9、Python支持的while循环，其与for循环的重要区别在于需要在循环体中用代码修改循环变量。

10、在Jupyter Notebook中执行以下代码，在输出区会打印（）： my_list=['haha',True, 56,7,8] print（my_list[2]）

11、本节介绍的6种数据结构中，（）存储结构化的数据（即二维表）最合适。

12、Python中，采用（）来界定循环语句块。

13、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print ('hello') 会在输出区打印（）次 haha

14、执行以下代码： import math x=float(input()) if x>0: print('x 是正数') print('x的平方根是',math.sqrt(x)) elif x==0: print('x是0') print('x的平方根是0') else: print('x是负数') print('x不可以求平方根') print('x=',x) 当输入9时，输出区会打印（）

15、用NumPy.loadtxt成功导入数据文件后，返回的数据结构是（）

16、将表格导入到DataFrame结构中后，如果只对表格中的内容（数据）感兴趣，可以访问DataFrame的（）属性。

非计分项-第4章地震数据

1、供下载，不计分

第六讲建模I

6单元测验

1、H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，此时，你应该
A、接受H0，拒绝H1
B、拒绝H0，接受H1
C、同时接受H0和H1
D、同时拒绝H0和H1

2、H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，如果你选择拒绝H0而接受H1，那么你错误拒绝H0的概率是
A、0.001
B、0.003
C、0.997
D、0.999

3、张三获得了一批贷款申请用户的数据，在各种处理之后，张三提取了100个数值型特征。他考察了高风险客户和低风险客户在这100个特征上的均值，并进行了双样本均值检验，发现其中有4个特征的假设检验p值小于设定的alpha(0.05)，请问，以下他应该采取哪种做法。
A、发表论文，报道他已找到4个有效区分高风险和低风险客户的特征。
B、针对同一批数据，换一批特征，看看有没有p值更小的特征。
C、换一批数据，换一批特征，看看有没有p值更小的特征。
D、对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha

4、以下关于线性回归分析的说法，正确的是
A、给定不重合的点，一定能找到回归直线
B、只要找到回归直线，y就一定与x线性相关
C、回归分析中r-square越大说明回归效果越好
D、r-square就是线性相关系数，因此取值在-1到1之间

5、以下属于描述性统计的方法或参数是
A、均值、标准差
B、直方图
C、中位数
D、均值t-检验的p值

6、基于样本的统计量而对总体分布的参数进行估计就是参数估计。

7、样本的统计均值就是总体均值的无偏估计。

8、线性回归只能用来预测一个连续区间上的数量值，不能用来分类。

9、线性回归常常被用来预测一个连续区间上的数量值，而逻辑回归则被用于二分类问题。

10、统计推断包括参数估计和（）两大类。

11、参数估计包括点估计和（）估计。

非计分项-第6讲数据

1、数据文件

第七讲建模II

7单元测验

1、对鸢尾花数据集，如果以sepal_length,sepal_width为特征，基于朴素贝叶斯训练一个鸢尾花的分类模型，你会选择以下哪个模型：
A、高斯模型
B、伯努利模型
C、多项式模型
D、无效选项

2、敏感性指标的取值范围在
A、[0,1]
B、[-1,1]
C、[0,正无穷)
D、(负无穷,0]

3、以下属于非监督学习模型的是
A、贝叶斯模型
B、回归模型
C、决策树模型
D、K-Means模型

4、以下说法不正确的是
A、有监督学习模型需要有标签数据
B、无监督学习模型不需要有标签数据
C、有监督学习模型都分为模型的训练和模型的应用两个阶段，前一阶段利用有标签数据建立模型，后一阶段则在标签未知的数据上应用模型来预测标签。
D、无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。

5、以下说法正确的是：
A、敏感性和特异性两个指标，两个取值都是[0,1]
B、单独来看，敏感性指标越大越好
C、单独来看，特意性指标越大越好
D、现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低

6、以下关于决策树的说法正确的是：
A、决策树中有节点和叶。
B、每个节点可看做一个条件分支。
C、树顶端第一个节点称为根节点，根节点对于分类的重要性最高。
D、构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。

7、为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率大于50%，所以小明应该接受该模型。

8、为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率小于全部判断“不属于setosa”的空模型准确率2/3，所以小明不应该接受该模型。

9、分类任务中，只要输入特征是连续取值的数值型特征，就一定可以应用高斯贝叶斯分类模型。

10、某个科幻网站拟发展新会员。据权威报道，目前网络用户中科幻爱好者的比例为5%。为了快速筛选出潜在会员，公司给了你以往积累的数据如下表，喜欢《三体》不喜欢《三体》科幻爱好者 7 1 非科幻爱好者 20 80 现在，有一位用户表示他喜欢《三体》，请问：他是科幻爱好者的概率是（）。请保留2位小数。

11、sklearn库中有多种基本模型的对象，可以直接拿来生成实例后使用。这些对象中一般都用（）函数来训练模型。

非计分项-第7讲数据

1、可下载附件

第五讲探索性数据分析

5单元测验

1、对于随机缺失情况下的缺失值填充，以下说法不正确的是
A、缺失值填充是一种加分手段，可以修复缺失的信息。
B、可以用邻近值填充缺失值
C、可以指定用均值填充缺失值
D、可以指定用众数填充缺失值

2、以下不属于位置性测度统计量的是
A、均值
B、中位数
C、p百分位数
D、众数
E、变异系数

3、以下不属于离散性测度的是
A、极差
B、标准差
C、变异系数
D、众数

4、当我们想观察两个数值型特征之间的相互关系时，可以选择的图形化方法是
A、直方图
B、箱型图
C、散点图
D、柱状图

5、在EDA的阶段，我们主要的任务是
A、了解数据规模
B、了解数据的意义
C、了解特征的意义和数据类型
D、检查缺失、冗余和异常并做相应处理
E、描述性统计
F、对数据建模

6、对于结构化数据中的特征，其可能的数据类型包括
A、以浮点数或整数存储的数值型
B、以字符或整数或逻辑值存储的布尔型
C、以字符存储的字符型
D、以整数存储的排序型

7、以下情况中，应判断数据有冗余的是
A、有重复行
B、有重复列
C、某个特征（某列）是另一个特征（另一列）的简单线性变换
D、某个特征是另外几个特征的线性组合

8、对于已整理成二维表格的结构化数据，通常一行代表一个样本，一列代表一个特征（或属性）。

9、结构化数据中的特征，其存储类型就是特征真实的数据类型，因此只要是浮点数或整数存储的特征，就可以当做数值型来对待，例如可对其进行各种数学运算。

10、图形化的统计描述，只能针对数值型的特征。

11、箱型图只能用于数值型的特征。

12、非数值型的特征，由于不能计算位置性测度和离散性测度，所以在描述性统计中没有任何用处。

非计分项-第5讲数据

1、Titanic数据

第九讲结果展示

8-9单元测验

1、关于偏差-变异性权衡，以下哪种说法是不正确的
A、一般而言，模型的复杂度越高，训练集内偏差越小
B、复杂度过高的模型常面临泛化能力差的问题
C、增加训练样本，可一定程度上减小模型的变异性
D、减少输入的特征种类，可一定程度上减小模型的偏差

2、关于欠拟合与过拟合，以下哪种说法是不正确的
A、欠拟合一般是由于样本集合太大而造成的
B、欠拟合时，增加模型的复杂度，或者增加输入特征的个数，可有望改善
C、过拟合时，增加训练集样本个数，可有望改善
D、过拟合时，减小模型复杂度，可有望改善

3、关于随机森林，以下说法不正确的是
A、随机森林通常性能比决策树好
B、都不做K折交叉验证时，随机森林的性能评价比决策树的可靠
C、随机森林只能用来分类，不能用来预测一个连续的数值型结果。
D、随机森林模型训练和应用的速度都较决策树慢

4、以下说法正确的是
A、k折交叉验证是一种与训练-测试划分截然不同的做法。
B、当数据集中的类别数量严重不匹配时，用ROC曲线的AUC指标衡量分类参数的性能会更好。
C、模型的调参就是寻找使模型性能最优的参数，不必考虑资源消耗代价。
D、随机森林和决策树模型都可以很方便的可视化。

5、以下关于集成模型的说法，正确的是
A、随机森林是一种集成模型。
B、集成模型提高性能的条件之一是模型间必须是相互独立的。
C、好模型和好模型集成才能得到更好的模型。
D、决策树是一种集成模型。

6、以下关于结果展示，正确的是
A、面向用户展示结果时，应侧重介绍项目给用户带来的改变及如何使用项目结果（如模型）。
B、结果展示的听众（对象）不同，展示的侧重应有所不同。
C、面向投资方时，应主要展示项目的各种技术细节。
D、面向同行时，应主要展示项目的社会效益与经济效益。

7、由于偏差-方差困境，评价模型时不能只看训练集上的性能，更要看模型处理新数据时的性能。

8、只要是将多个模型集成，就一定能提高性能。

9、K折交叉验证是一种评价模型性能的常用方法。该方法中，数据集中的每个数据都有（）次机会训练模型。

10、K折交叉验证是一种评价模型性能的常用方法。该方法中，数据集中的每个数据都有（）次机会测试模型。

期末考试

《探索数据的奥秘》期末测验

1、人类探索世界的第四科学范式是指
A、实验
B、数据科学
C、理论
D、计算

2、以下关于大数据的特点描述，错误的是
A、数据量大到常常需要并行计算处理
B、大数据是指体量非常大的结构化数据
C、大数据的价值密度相对较低
D、大数据具有种类繁多、速度快时效高的特点

3、以下关于数据科学的说法，你认为正确的是
A、数据科学涉及多学科与工程应用的融合与交叉
B、数据科学其实就是统计学
C、数据科学就是机器学习
D、数据科学就是传统意义的“科学”，不必过多考虑工程应用

4、一个完整的数据科学项目，应起始于
A、问题的确定
B、数据搜集
C、建立高大上的模型
D、目标制定

5、关于模型的评价，以下说法中不正确的是：
A、分类模型的性能评价常规采用混淆矩阵
B、对于一个有效的数据科学模型，其评价指标需优于以往实现同类任务的模型所实现的指标
C、模型采用什么样的评价指标和具体的模型类型密切相关
D、在不了解以往工作的情况下，分类模型优于50%的准确率指标（也就是随机分类准确率）即可

6、又到了大学新生入学的时间。你作为学生会中的老干部，很荣幸领到了一项为新生匹配舍友的任务，每四个新生同住一间宿舍。有无穷活力的你，决定利用你所了解的数据科学来实现自动匹配，让个性、爱好相似的人成为舍友。请问，从数据科学的观点，这是一个什么问题？
A、特征提取
B、聚类
C、关联化
D、分类

7、一位葡萄酒经销商找到你，想了解到底酸度、剩余糖分、氯化物、酒精浓度、酸碱度等性质中究竟哪种性质最影响大众对葡萄酒的喜好程度。请问，从数据科学的观点，这是一个什么问题？
A、关联化
B、预测
C、特征提取
D、分类

8、Pandas.read_csv函数读取数据文件时，指定参数（）（也就是为其赋值）可以实现数据的流读取，即不将数据一次性加载，而是以连续流的方式加载。
A、chunksize
B、index
C、header
D、delimiter

9、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print ('hello') 会在输出区打印（）次 hello
A、1
B、2
C、8
D、7

10、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print ('hello') 会在输出区打印（）次 xixi
A、2
B、1
C、4
D、3

11、在Jupyter Notebook中执行以下代码，在输出区会打印（）：my_list=['haha',True,56,7,8,9,10] print（my_list[1:3])
A、[True,56]
B、['haha',True]
C、[56,7]
D、[9,10]

12、对于随机缺失情况下的缺失值填充，以下说法不正确的是
A、缺失值填充是一种加分手段，可以修复缺失的信息。
B、可以指定用众数填充缺失值
C、可以指定用均值填充缺失值
D、可以用邻近值填充缺失值

13、以下不属于位置性测度统计量的是
A、变异系数
B、均值
C、中位数
D、p百分位数
E、众数

14、以下不属于离散性测度的是
A、众数
B、极差
C、标准差
D、变异系数

15、当我们想观察两个数值型特征之间的相互关系时，可以选择的图形化方法是
A、散点图
B、直方图
C、箱型图
D、柱状图

16、H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，此时，你应该
A、拒绝H0，接受H1
B、接受H0，拒绝H1
C、同时接受H0和H1
D、同时拒绝H0和H1

17、H0代表空假设，H1代表替代假设,alpha被设定为0.003，假设检验后你得到p值为0.001，如果你选择拒绝H0而接受H1，那么你错误拒绝H0的概率是
A、0.001
B、0.003
C、0.997
D、0.999

18、张三获得了一批贷款申请用户的数据，在各种处理之后，张三提取了100个数值型特征。他考察了高风险客户和低风险客户在这100个特征上的均值，并进行了双样本均值检验，发现其中有4个特征的假设检验p值小于设定的alpha(0.05)，请问，以下他应该采取哪种做法。
A、对这4个特征，在一批新数据上重新检验，看看是否p值依然小于显著性水平alpha
B、发表论文，报道他已找到4个有效区分高风险和低风险客户的特征。
C、针对同一批数据，换一批特征，看看有没有p值更小的特征。
D、换一批数据，换一批特征，看看有没有p值更小的特征。

19、对鸢尾花数据集，如果以sepal_length,sepal_width为特征，基于朴素贝叶斯训练一个鸢尾花的分类模型，你会选择以下哪个模型：
A、高斯模型
B、伯努利模型
C、多项式模型
D、无效选项

20、敏感性指标的取值范围在
A、[0,1]
B、[-1,1]
C、[0,正无穷)
D、(负无穷,0]

21、以下属于非监督学习模型的是
A、K-Means模型
B、贝叶斯模型
C、回归模型
D、决策树模型

22、以下说法不正确的是
A、无监督学习模型的性能评价和模型解释与有监督学习模型没有大的区别。
B、有监督学习模型需要有标签数据
C、无监督学习模型不需要有标签数据
D、有监督学习模型都分为模型的训练和模型的应用两个阶段，前一阶段利用有标签数据建立模型，后一阶段则在标签未知的数据上应用模型来预测标签。

23、关于偏差-变异性权衡，以下哪种说法是不正确的
A、减少输入的特征种类，可一定程度上减小模型的偏差
B、一般而言，模型的复杂度越高，训练集内偏差越小
C、复杂度过高的模型常面临泛化能力差的问题
D、增加训练样本，可一定程度上减小模型的变异性

24、关于欠拟合与过拟合，以下哪种说法是不正确的
A、欠拟合一般是由于样本集合太大而造成的
B、欠拟合时，增加模型的复杂度，或者增加输入特征的个数，可有望改善
C、过拟合时，增加训练集样本个数，可有望改善
D、过拟合时，减小模型复杂度，可有望改善

25、关于随机森林，以下说法不正确的是
A、随机森林只能用来分类，不能用来预测一个连续的数值型结果。
B、随机森林模型训练和应用的速度都较决策树慢
C、都不做K折交叉验证时，随机森林的性能评价比决策树的可靠
D、随机森林通常性能比决策树好

26、以下说法正确的是
A、当数据集中的类别数量严重不匹配时，用ROC曲线的AUC指标衡量分类参数的性能会更好。
B、k折交叉验证是一种与训练-测试划分截然不同的做法。
C、模型的调参就是寻找使模型性能最优的参数，不必考虑资源消耗代价。
D、随机森林和决策树模型都可以很方便的可视化。

27、以下适合存储含不同数据类型数据的二维表的数据结构是：
A、Pandas.DataFrame
B、Numpy.ndarray
C、List
D、Dict

28、Numpy.loadtxt导入数据文件以后，返回的数据结构是：
A、Numpy.ndarray
B、List
C、Tuple
D、Set

29、以下哪些技术支撑了现今的数据时代？
A、传感技术
B、互联网与通信技术
C、存储技术
D、航天技术

30、以下哪些是数据？
A、你听讲座时的录音文件
B、十字路口的监控视频
C、传感器采集到的你的生命体征信息
D、你在朋友圈里发布的动态

31、以下说法正确的是：
A、问题和目标，都涉及两个层面：用户层面和数据科学层面。
B、数据科学层面的问题与目标确定，其中的关键是现实问题的抽象化。
C、用户层面的问题与目标涉及到最后项目的验收，因此一旦明确，也就指出了我们努力的方向和路径。
D、用户层面我们面临的一般是一个现实世界中的具体问题。

32、“张大妈服用我们的产品治好了多年的老寒腿”，为什么不能作为产品有效的科学依据？
A、样本容量太小
B、存在抽样偏差
C、未考虑混杂因素
D、单个个体不能代表总体

33、我想创建一个其元素可以被修改、同时支持不同数据类型的数据结构，可以选择以下的：
A、list（列表）
B、Pandas的DataFrame（数据框）
C、tuple（元组）
D、set（集合）

34、以下其元素不允许被修改的数据结构是
A、tuple
B、set
C、list
D、dict
E、DataFrame

35、在EDA的阶段，我们主要的任务是
A、了解数据规模
B、了解数据的意义
C、了解特征的意义和数据类型
D、检查缺失、冗余和异常并做相应处理
E、描述性统计
F、对数据建模

36、对于结构化数据中的特征，其可能的数据类型包括
A、以浮点数或整数存储的数值型
B、以字符或整数或逻辑值存储的布尔型
C、以字符存储的字符型
D、以整数存储的排序型

37、以下情况中，应判断数据有冗余的是
A、有重复行
B、有重复列
C、某个特征（某列）是另一个特征（另一列）的简单线性变换
D、某个特征是另外几个特征的线性组合

38、以下关于线性回归分析的说法，正确的是
A、给定不重合的点，一定能找到回归直线
B、回归分析中r-square越大说明回归效果越好
C、只要找到回归直线，y就一定与x线性相关
D、r-square就是线性相关系数，因此取值在-1到1之间

39、以下属于描述性统计的方法或参数是
A、均值、标准差
B、直方图
C、中位数
D、均值t-检验的p值

40、以下说法正确的是：
A、敏感性和特异性两个指标，两个取值都是[0,1]
B、单独来看，敏感性指标越大越好
C、单独来看，特意性指标越大越好
D、现实情况中，敏感性与特异性两个指标往往不能兼顾，例如常常敏感性高了，特异性就会降低

41、以下关于决策树的说法正确的是：
A、决策树中有节点和叶。
B、每个节点可看做一个条件分支。
C、树顶端第一个节点称为根节点，根节点对于分类的重要性最高。
D、构建决策树时，选择节点的特征和划分的依据是使数据纯度提升最多的特征和划分。

42、以下关于集成模型的说法，正确的是
A、随机森林是一种集成模型。
B、集成模型提高性能的条件之一是模型间必须是相互独立的。
C、好模型和好模型集成才能得到更好的模型。
D、决策树是一种集成模型。

43、以下关于结果展示，正确的是
A、面向用户展示结果时，应侧重介绍项目给用户带来的改变及如何使用项目结果（如模型）。
B、结果展示的听众（对象）不同，展示的侧重应有所不同。
C、面向投资方时，应主要展示项目的各种技术细节。
D、面向同行时，应主要展示项目的社会效益与经济效益。

44、一个数据科学项目，可能涉及的人员包括项目出资方、客户（或用户）、数据科学家、数据架构师和运营工程师，不同的角色有不同任务，大家各有其专业领域，各司其职即可，不要相互影响。

45、现在的模型功能非常强大，所以拿到数据以后，可以直接建模，让模型自动化分析。

46、明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设。

47、根据前提假设，只要能设计出对应的数据构成，我们就可以进入数据收集。

48、明确数据科学层面的任务（问题和目标）之后，我们需要首先提出前提假设，不同的假设很可能会涉及不同的数据，最终导致不同的研究内容。

49、确定数据的构成，一般是指建立一张不可再分的二维表。表中一行代表一个样本，一列代表样本的一个特征或属性。

50、传统统计学认为样本容量大于30就具备统计学意义了，所以大数据时代的数据，哪怕不是全部数据，也可以有效代表总体。

51、抽样偏差（Sampling bias）是指从总体中非随机性抽样带来的系统性错误。

52、产生“辛普森悖论”的主要原因是没有排除混杂因素的影响。

53、所谓混杂因素，是指那些不是我们的考察对象，但却可能对结果造成影响的因素。

54、字典结构中的键（key），可看做一种索引，可以是列表、元组、集合等。

55、Python支持for循环和while循环，两种执行基本一样，都不需要额外用代码在循环体中修改循环变量。

56、Python支持的while循环，其与for循环的重要区别在于需要在循环体中用代码修改循环变量。

57、对于已整理成二维表格的结构化数据，通常一行代表一个样本，一列代表一个特征（或属性）。

58、结构化数据中的特征，其存储类型就是特征真实的数据类型，因此只要是浮点数或整数存储的特征，就可以当做数值型来对待，例如可对其进行各种数学运算。

59、图形化的统计描述，只能针对数值型的特征。

60、箱型图只能用于数值型的特征。

61、非数值型的特征，由于不能计算位置性测度和离散性测度，所以在描述性统计中没有任何用处。

62、基于样本的统计量而对总体分布的参数进行估计就是参数估计。

63、样本的统计均值就是总体均值的无偏估计。

64、线性回归只能用来预测一个连续区间上的数量值，不能用来分类。

65、线性回归常常被用来预测一个连续区间上的数量值，而逻辑回归则被用于二分类问题。

66、为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率大于50%，所以小明应该接受该模型。

67、为了实现自动判断鸢尾花是否属于setosa类，小明构造了一个简单的二分类模型，以4个特征为输入，输出“属于setosa”或“不属于setosa”。小明将该模型应用到鸢尾花数据集上（150个样本，setasa,versicolor,virginica三类各50个样本），得到模型的总体判别准确率为65%。由于该准确率小于全部判断“不属于setosa”的空模型准确率2/3，所以小明不应该接受该模型。

68、分类任务中，只要输入特征是连续取值的数值型特征，就一定可以应用高斯贝叶斯分类模型。

69、由于偏差-方差困境，评价模型时不能只看训练集上的性能，更要看模型处理新数据时的性能。

70、只要是将多个模型集成，就一定能提高性能。

71、为研究长寿秘诀，小明去多个长寿之乡采访了100位百岁老人，把他们共同的生活习惯总结成为了长寿秘诀。由于幸存者偏差，小明的结论并不可靠。

72、Python中，用缩进来界定循环语句块，当退出缩进时即表示不再属循环块了。

73、样本真实反映总体的两个前提条件是：1.样本容量足够大；2.（）抽样

74、在Jupyter Notebook中执行以下代码，在输出区会打印（）： my_list=['haha',True, 56,7,8] print(my_list[2])

75、执行以下代码： my_list=['C#','Java','Python','R'] for i in [1, 2]: print ('xixi') for opt_language in my_list: print ('haha') print('hello') 会在输出区打印（）次 haha

76、执行以下代码： import math x=float(input()) if x>0: print('x 是正数') print('x的平方根是',math.sqrt(x)) elif x==0: print('x是0') print('x的平方根是0') else: print('x是负数') print('x不可以求平方根') print('x=',x) 当输入9时，输出区会打印（ )

77、将表格导入到DataFrame结构中后，如果只对表格中的内容（数据）感兴趣，可以访问DataFrame的（）属性。

78、统计推断包括参数估计和（）两大类。

79、参数估计包括点估计和（）估计。

80、某个科幻网站拟发展新会员。据权威报道，目前网络用户中科幻爱好者的比例为5%。为了快速筛选出潜在会员，公司给了你以往积累的数据如下表，喜欢《三体》不喜欢《三体》科幻爱好者 7 1 非科幻爱好者 20 80 现在，有一位用户表示他喜欢《三体》，请问：他是科幻爱好者的概率是（）。请保留2位小数。

81、sklearn库中有多种基本模型的对象，可以直接拿来生成实例后使用。这些对象中一般都用（）函数来训练模型。

82、K折交叉验证是一种评价模型性能的常用方法。该方法中，数据集中的每个数据都有（）次机会训练模型。

83、K折交叉验证是一种评价模型性能的常用方法。该方法中，数据集中的每个数据都有（）次机会测试模型。

中国大学探索数据的奥秘

随着数据时代的到来，数据已经成为信息时代最为宝贵的资源之一，数据挖掘和分析技术的不断提升，为人们从数据中挖掘出更多价值提供了保障。中国大学一直以来都在探索数据的奥秘，不断探索数据分析的新方法和新模式，取得了丰硕的成果，成为数字时代的重要力量。

中国大学数据分析的新模式

中国大学在数据探索方面，已经形成了多种数据分析的新模式。例如，在经济和金融领域，中国大学通过大数据分析，建立了金融风险预警系统，可以及时发现风险，保障金融安全。在医疗领域，中国大学通过对医疗数据的分析，可以预测疾病的发生概率，并制定相应的治疗方案，提高疾病治疗的效果。在城市管理方面，中国大学通过对大数据的分析，可以对城市进行全方位的管理，提高城市治理的效率。

中国大学数据分析的新方法

中国大学在数据分析方面，也不断推出新的数据分析方法。例如，在深度学习方面，中国大学已经开展了多项深入的研究，利用深度学习技术分析人脑的神经网络，探索人类的思维机制。在自然语言处理方面，中国大学也取得了许多重要的成果，例如机器翻译、语音识别等，为人工智能的发展提供了更好的技术支持。

中国大学数据分析的新成果

中国大学在数据分析方面，已经取得了许多令人瞩目的成果。例如，在2018年，中国科学院计算机网络信息中心成功破解了24个国家的SS7网络，提供了全球首个完整的移动通信基础设施安全解决方案，大大提高了移动通信安全性。在2019年，中国科学院自动化研究所通过对大数据的分析，发现了地震预警的新方法，可以提前数秒钟预测地震，为地震预警提供了更加精确的手段。