0.0824

五煦查题

快速找到你需要的那道考题与答案

mooc应用回归分析_3答案(慕课2023完整答案)

11 min read

mooc应用回归分析_3答案(慕课2023完整答案)

第一章:回归分析概述

测验一

1、应用以下关于回归分析的回归理解正确的是( )
A、回归一词来源于高尔顿关于父辈和子辈身高关系的分析研究
B、回归效应的答案答案古典含义是指父辈个子高,子女个子通常也高;父辈个子矮,慕课子女通常也矮
C、完整回归的应用现代含义是由自变量的取值去预测因变量的具体值
D、不论何种数据,回归都可以用一条直线来精确地拟合输入输出数据

2、分析以下不属于相关关系的答案答案有 ( )
A、父辈身高与子女身高的慕课关系
B、考试成绩与学习时间的完整关系
C、企业违约风险与其负债率的应用关系
D、正方形面积与其边长的回归关系

3、以下关于相关分析理解正确的分析是( )
A、相关分析需要明确划分自变量和因变量
B、相关系数接近于0说明两个变量不存在任何关系
C、相关系数接近于1说明两个变量存在线性关系
D、相关分析中,通常把y视为随机变量,x视为非随机变量

4、机器学习的类型不包括以下哪一项( )
A、有监督学习
B、无监督学习
C、自觉学习
D、深度学习

5、以下哪一项不是机器学习的特点 ( )
A、需要建立精确的数学模型
B、以算法设计为中心
C、能够在算法运行过程中自我演进
D、需要大量的数值计算

6、机器学习的步骤不包括以下哪一项( )
A、搜集数据
B、提取特征
C、优化计算
D、硬件维护
E、调整参数

7、关于回归分析,以下说法正确的是( )
A、用一条直线对输入输出数据进行拟合
B、必须假定总体分布
C、可以在相关分析的基础上进一步刻画输入输出变量的统计联系
D、采用机器学习方法比数理统计方法更好

8、关于相关分析和回归分析,以下正确的说法有( )个 1) 两者都需要区分自变量和因变量; 2) 两者都假定x和y是随机变量; 3) 从统计学角度,两者都需要进行显著性检验; 4) 两者的功能是相同,进行一个即可。
A、0
B、1
C、2
D、3
E、4

9、以下关于机器学习理解正确的是( )
A、机器会自动学习,不需要人做任何事情
B、有监督学习需要人参与,无监督学习不需要人参与
C、以算法为中心,不太关注模型假设
D、机器会自主完成特征的设计和提取

第二章 Python基本介绍

测验二

1、下述哪行程序创建了一个字符串变量
A、x=1
B、x='abc'
C、x=True
D、x=range(1,9)

2、定义一个字典型数据并执行查询如下,运行第二条语句的结果是 ( ) x={ 1:'apple',2:'orange','pear':3} x[3]
A、'apple'
B、'orange'
C、'pear'
D、KeyError: 0

3、定义一个函数如下,下述中返回结果不是 2 的调用命令是 ( ) def f(x,y): u=x-y**2 if u>0: return u else: return 0
A、f(6,2)
B、f(2,6)
C、f(3,1)
D、f(y=2,x=6)

4、创建了列表并访问其中的元素如下,运行第二条语句的结果是 ( ) x=[[1,2],[3,4],[5,6]] x[2][1]
A、3
B、4
C、5
D、6

5、下述程序创建了一个矩阵,并求其行列式的值。运行结果是 ( ) import numpy as np y=np.matrix('2,3;4,5') ydet=np.linalg.det(y) print(ydet)
A、2
B、-2
C、4
D、-4

6、下述程序创建了一个数据框。程序最后的显示结果是( ) import numpy as np import pandas as pd t=np.arange(1,10,2) x=t**2 mydict={ 't':t,'x':x} mydf=pd.DataFrame(mydict) np.sum(mydf.x)
A、165
B、385
C、220
D、50

7、下述哪行程序没有生成正态分布的随机数? ( )
A、x=np.random.normal(10,2,5)
B、x=np.random.normal(2,5,[5,2])
C、x=np.random.normal(2,5,[2,5])
D、x=2+5*np.random.randn(10)

8、下述程序绘制一条对数函数图,其中第5行的第3个参数的作用是 ( ) import numpy as np #line 1 import matplotlib.pyplot as plt #line 2 x=np.arange(1,20,0.2) #line 3 y=np.log(x) #line 4 plt.plot(x,y,'b:',label='logarithm curve') #line 5 plt.xlabel('x') #line 6 plt.ylabel('y') #line 7 plt.legend() #line 8
A、指定图像的横坐标的名称
B、指定图像的纵坐标的名称
C、指定图像曲线的颜色和形状
D、指定图像的标签

9、下述哪个命令不能实现普通最小二乘回归?( )
A、statsmodels.api.OLS()
B、statsmodels.formula.api.ols()
C、numpy.linalg.lstsq()
D、pandas.formula.api.ols()

10、下述哪个命令不是用来创建数据框变量的?( )
A、mydf = pandas.read_csv('data.csv')
B、mydf = pandas.read_csv('data.txt')
C、myfile=open('data.txt')
D、df=pandas.DataFrame([['alice',87],['benny',80],['chris',92]])

11、一个矩阵的最大特征值与最小特征值的商,称为这个矩阵的条件数。使用 numpy 模块,编写 Python 程序计算矩阵 的条件数,结果为 ( )
A、1
B、2
C、4
D、8

12、设有下述自变量和因变量的数据,考虑一元线性回归模型, 使用 StatsModels 模块,编写 Python 程序计算得到的回归系数为 ( ) x 0.1 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.2 0.21 0.23 y 42 43 45 45 45 47.5 49 53 50 55 55 60
A、
B、
C、
D、

第三章 一元线性回归

测验三

1、进行一元线性回归分析时,总是假定( )
A、自变量是非随机变量、因变量是随机变量
B、自变量是随机变量、因变量是确定性变量
C、两变量都是随机变量
D、两变量都不是随机变量

2、某校经济管理类的学生学习统计学的时间与其考试成绩之间建立线性回归方程 . 经计算,方程为 ,根据该问题的实际含义,该方程参数的计算( )
A、值是明显不对的
B、值是明显不对的
C、值和值都明显不对
D、值和值都是正确的

3、回归分析中,用来初步判断两个变量之间相互关系类型的图形是( )
A、直方图
B、散点图
C、次数多边分布图
D、累计频率曲线图

4、在回归分析中,描述因变量如何依赖于自变量和误差项的方程称为( )
A、回归方程
B、理论方程
C、估计方程
D、拟合方程

5、已知回归平方和SSR=4750,残差平方和SSE=250,则拟合优度系数=( )
A、90%
B、94.74%
C、95%
D、97.5%

6、对于有显著线性相关关系的两变量建立的直线回归方程 中,回归系数 ( )
A、可能为0
B、可能小于0
C、只能是正数
D、只能是负数

7、回归估计中,自变量的取值 越远离其平均值 ,求得到 的预测区间( )
A、越准确
B、越窄
C、越宽
D、越接近实际值

8、在一元回归方程中,回归系数 的实际意义是( )
A、当 时 的期望值
B、当 变动1个单位时, 增加的总数量
C、当 变动1个单位时,的平均变动数量
D、当 变动1个单位时, 的平均变动数量

9、每一吨铸件的成本 (元)与工人劳动生产率 (吨/人)之间的回归方程为 ,这意味着劳动生产率每提高一个单位,成本就( )
A、提高270元
B、提高269.5元
C、降低0.5元
D、提高0.5元

10、根据最小二乘法原理所得到的一元线性回归方程,具有以下哪个性质( )
A、 为最小
B、
C、 为最小
D、 为最小

11、在一元线性回归分析中,检验回归方程是否存在整体的显著线性关系,采用的检验统计量是( )
A、
B、
C、
D、

12、在回归模型 中,反映的是( )
A、由于的变化引起的 的线性变化部分
B、由于的变化引起的的线性变化部分
C、除和的线性关系之外的随机因素对的影响
D、由于和的线性关系对的影响

13、下面关于回归模型的经典假定中哪一个是不正确的( )
A、自变量是随机的
B、误差项是一个期望值为0的随机变量
C、对于所有,误差项的方差都相同
D、误差项是服从正态分布的随机变量,且相互独立

14、在直线回归方程 中,若回归系数 ,这表示( )
A、对的影响是显著的
B、对的影响是不显著的
C、对的影响是显著的
D、对的影响是不显著的

15、在回归分析中,利用估计的回归方程,对于x的一个新的特定值x0,关于 的预测,以下说法有( )个是正确的。 1) 是 的点估计 2) 是 的点估计 3)平均值的置信区间比个别值的置信区间更宽 4)个别值的置信区间是一种参数估计
A、1
B、2
C、3
D、4

第四章 多元线性回归

测验四

1、以下哪一项不是多元线性回归模型的基本假设( )
A、误差项的均值为0
B、误差项的方差相等
C、设计矩阵X中的自变量列之间不相关
D、误差项服从均匀分布

2、多元回归模型中,关于调整决定系数的取值正确的是( )
A、可能为负
B、一定小于决定系数
C、可能大于1
D、一定接近于1

3、对变量y关于X1、X2、X3进行回归分析(包含常数项),为检验X2是否显著,以下方式错误的是( )
A、result.summary()
B、R = [0,1, 0]; print(result.f_test(R))
C、print(result.t_test("X2=0"))
D、R = [0, 0, 1, 0]; print(result.t_test(R))

4、现有数据1.2,0.8,2.9,0.5,4.6,将该组数据中心化,新数据集中数值最小的值为( )
A、0
B、-2.6
C、-1.5
D、-0.8
E、-1

5、以下关于数据标准化的理解正确的是( )
A、任何数据都需要标准化
B、标准化后的数据都在[0,1]之间
C、标准化后的数据单位和原来相同
D、对标准化数据得到的回归模型不含常数项

6、调用sklearn 库进行回归分析,以下一段代码中有( )句是正确的。 from sklearn import statsmodels from sklearn import model_selection as selection trainSet, testSet = selection.train_test_split(dataset1, test_size=0.25, random_state=1001) model = linear_model.LinearRegression() model.summary() model.intercept_ model.coef_
A、7
B、6
C、5
D、4
E、3

7、关于回归方程的显著性检验,以下说法中有( )个是正确的 1,整体显著性的F检验和t检验是等价的 2 单个回归系数的偏F统计量和t统计量是等价的 3. 回归系数的置信区间使用t统计量构造
A、0
B、1
C、2
D、3

8、关于数据的标准化,以下说法正确的有( )个 1 标准化数据的均值为0,方差为1 2 标准化数据均为非负 3 对标准化数据,得到的最小二乘回归方程穿过原点 4 对标准化数据和中心化数据做回归,得到的结果是相同的
A、0
B、1
C、2
D、3
E、4

9、关于多元数据的相关性分析,以下说法正确的有( )个 1 相关阵的元素是变量两两之间的相关系数 2 散点图矩阵能够完全揭示多维数据间的相关性结构 3 相关阵的对角线元素有可能小于1
A、0
B、1
C、2
D、3

10、对三个变量(按顺序标为 、 、 )进行相关分析,得到相关阵及显著性结果如下: 相关阵 显著性 以下判断正确的是( )
A、和 显著正相关
B、和 显著正相关
C、 和 显著正相关
D、三个变量之各自独立

案例作业一:基础多元回归

1、为了向客户提供房屋租金方面的信息,本案例收集了80个商业地产的房龄、空置率、占地面积、出租率和运营费用。所涉及的变量有房龄( ),运营费用 ( ),空置率(), 面积( )和出租率(Y)。数据文件请至“第四章数据与代码文件”处下载,文件各列数据依次为Y、X1、X2、X3、X4。 本例使用statsmodels库进行分析,先进行数据分析,再根据运行结果回答以下问题,答题时选择与运行结果最为接近的数值。 思考题: 1,使用最小二乘方法得到的回归估计方程为 ( ) A. B. C. D. 2.模型中方差 的估计值为( ) A.0.729 B.0.532 C.1.214 D.1.474 3. 对回归方程进行整体显著性的F检验,所得的统计量的值为( ) A.31.438 B.21.325 C.110.567 D.125.751 4. 对 的回归系数进行显著性检验,所得检验的p值为( ) A.-6.052 B.0.090 C. 0.319 D.1.003 5. 对一个房龄=14,运营费用=8.19,空置率=0.27, 面积=104的商业地产,预测其出租率的值为( ) A.13.670 B.15.415 C. 12.901 D.12.730

第五章 违背基本假设的情况

测验五

1、关于残差及其方差,下述说法中,不正确的是
A、残差是观测值减去从模型得出拟合值。
B、残差向量的协方差矩阵是 , 其中 H 是帽子矩阵。
C、学生化残差的计算公式是 , 这是一个没有量纲的量。
D、按照线性回归模型的基本假设,残差之间是互不相关的。

2、关于异方差的概念与检验,下述说法中,不正确的是
A、异方差是指误差项的方差跟自变量或因变量或观测次序有关。
B、计算DW统计量的值可以用于推断存在异方差现象。
C、用加权的方法处理异方差问题,其实质是将观测数据转换成同方差的, 以适合线性回归模型的基本假设。
D、用残差图分析是否存在异方差,总是将残差放在纵坐标上,将其它变量或数据的序号放在横坐标上。

3、关于自相关的概念与检验,下述说法中,不正确的是
A、自相关是指不同组的观测的误差项之间存在相关性。
B、用自相关系数来判别自相关现象,是用残差向量 跟残差向量 之间的皮尔逊相关系数来度量的。
C、用DW检验自相关现象,跟用自相关系数检验,本质上一样的。
D、用DW检验方法也可以检验多阶的自相关现象,也就是延后多期的自相关现象。

4、关于处理自相关问题的迭代法,下述说法中,不正确的是
A、迭代法是对误差序列做的自回归模型。
B、迭代法中的自回归模型中的误差项,如果仍有自相关现象,则需对该误差项序列继续做迭代法。
C、如果迭代法中的自相关系数取为1,则就成为差分法。
D、用迭代法处理自相关问题,数据变换之后,对新变量得到的回归模型,其两个回归参数与原模型均不相同。

5、关于多重共线性的概念与影响,下述说法中,不正确的是
A、多重共线性是指多个自变量以及因变量之间相互影响的一种现象。
B、自变量之间的相关系数都不是显著地等于正负1,也可能存在多重共线性现象。
C、如果自变量之间存在多重共线性,那么参数估计量的方差就会变得很大。
D、多重共线性是指设计矩阵的列向量之间存在的近似线性关系。

6、关于方差扩大因子,下述说法中,不正确的是
A、方差扩大因子是自变量的相关系数矩阵的对角线元素。
B、每个自变量都对应一个方差扩大因子。
C、每个自变量的方差扩大因子跟这个自变量对其余自变量作线性回归得到的复决定系数有关。复决定系数越接近1,方差扩大因子就越大。
D、如果某个自变量的方差扩大因子超过10,就推断这个自变量与其余自变量之间存在严重的多重共线性。

7、关于诊断多重共线性的特征值方法,下述说法中,不正确的是
A、存在多重共线性现象等价于矩阵 存在近似于零的特征值。
B、一个正定矩阵如果存在近似于零的特征值,那么这个矩阵的条件数就会很大。
C、考察矩阵 的最大特征值的特征向量,可以得出自变量之间存在的近似的线性关系表达式。
D、如果矩阵 的条件数大于1000,那么就认为自变量之间存在严重的多重共线性。

8、关于异常值,下述说法中,不正确的是
A、异常值是指数据的极端的观测值,可能来自其它数据或模型。
B、自变量和因变量都会影响残差,也都会影响杠杆值。
C、若某个观测点的学生化残差的绝对值大于2,则这是因变量引起的异常值。
D、若某个观测点的杠杆值大于平均值的2倍,则这是自变量引起的异常值。

9、关于强影响点,下述说法中,不正确的是
A、如果模型中删除了强影响点,那么模型的参数估计值会发生较大的变化。
B、若杠杆值较小或库克距离较小,则这个观测点可能是强影响点。
C、库克距离综合了某观测点的标准化残差和杠杆值这两方面的作用。
D、库克距离较好地衡量了该点是不是模型的强影响点。

10、关于线性回归模型的基本假设,下述说法中,不一定要求的是那一条?
A、基本假设要求自变量是确定的变量,而且设计矩阵的列向量组是线性无关的。
B、基本假设要求误差项符合高斯-马尔科夫条件,即均值为零,方差相等,两两不相关。
C、基本假设要求自变量与因变量的关系是线性的。
D、最小二乘公式成立的前提是误差项相互独立且相同分布,服从均值为零的正态分布。

11、考虑一元线性回归模型,设观测数据的数目为, 误差平方和为, 则误差项的方差的无偏估计为
A、
B、
C、
D、

12、设有两位裁判给十位运动员的表现打分,分值为1-10. 设所给分值完全相反,即每位运动员得到的两个分数之和都是11分。则这两位裁判的评分的Spearman等级相关系数为
A、1
B、0
C、-1
D、1/2

13、关于用DW统计量检验残差的自相关性,下述说法中不正确的是
A、当DW接近零时,认为误差项有正自相关性。
B、当DW接近4时,认为误差项有负自相关性。
C、当DW在2附近时,认为误差项没有自相关性。
D、当DW在-2附近时,无法判断误差项是否有自相关性。

14、下述方法中哪个不是用来处理多重共线性的?
A、删除不重要的自变量。
B、增大样本容量。
C、岭回归方法。
D、迭代法。

15、对学生化残差的计算公式 的理解,下述说法中不正确的是
A、标准化残差是没有量纲的,若其绝对值大于2,则判断该观测点为异常点。
B、分子是第个观测点的残差,其方差为.
C、加帽子的是线性回归模型的残差的方差的估计量。
D、这里的是帽子矩阵的对角线的第个元素。

案例作业二:自相关检验与处理

1、本案例数据文件请至“第五章案例数据文件”处下载,其中x 是自变量,y 是因变量。我们要检验线性回归模型的误差是否有自相关现象,如果有自相关现象,用迭代法来消除自相关。 先进行数据分析,再根据运行结果回答以下问题,答题时选择与运行结果最为接近的数值。 1. 用普通最小二乘法建立 y 关于 x 的回归方程,结果是 ( ) A. y=-1.3348 + 0.0762 x B. y=-1.4348 + 0.1762 x C. y=-1.5348 + 0.2762 x D. y=-1.6348 + 0.3762 x 2. 使用残差向量的皮尔逊相关系数,计算残差序列的一阶自相关系数 的值为 ( ) A. 0.46 B. 0.56 C. 0.66 D. 0.76 3. 按定义计算残差序列的 DW 统计量。已知 1% 的 DW 检验的上下界分别为 和 . 则DW 统计量和残差自相关性的判断结果是 ( ) A. DW=0.667, 残差存在自相关。 B. DW=1.227, 残差存在自相关。 C. DW=0.667, 残差不存在自相关。 D. DW=1.227, 残差不存在自相关。 4. 按照迭代法的算法,使用下述变量代换,其中的 由 计算得来。 然后用普通最小二乘法,得到的回归方程和残差的自相关系数分别是 ( ) A. 回归方程是 , 残差的自相关系数 0.6. B. 回归方程是, 残差的自相关系数 0.5. C. 回归方程是 , 残差的自相关系数 0.4. D. 回归方程是, 残差的自相关系数 0.3. 5. 使用第4题的迭代法处理后的回归方程是 ( ) A. B. C. D.

第六章 线性回归的拓展

测验六

1、在回归模型 中,单个变量的二次效应系数为 ( )
A、
B、
C、
D、

2、以下方程中属于本质非线性回归模型的是( )
A、
B、
C、
D、

3、某经济学家想调查文化程度对家庭储蓄的影响,因变量y是家庭储蓄增加额,自变量 为家庭总收入,自变量表示家庭学历,高学历家庭=1,低学历家庭=0,建立的回归模型为,低学历家庭的回归方程为( )
A、
B、
C、
D、三项都不是

4、某经济学家想调查文化程度对家庭储蓄的影响,因变量y是家庭储蓄增加额,自变量 为家庭总收入,自变量表示家庭学历,高学历家庭=1,低学历家庭=0,建立的回归模型为,本问题中,对照组为( )
A、高学历家庭
B、低学历家庭
C、高学历家庭或低学历家庭
D、两种都不对

5、为了研究空气中一氧化氮的浓度与汽车流量等因素的关系,有人测定了中国北方某城市交通点在单位时间内过往的汽车数、气温 、空气湿度、风速、季节以及空气中的一氧化氮的浓度Y,其中季节是一个定性变量,分为春、夏、秋、冬,如果想用春季作为对照组,则建模时候,应该设定几个哑变量( )
A、1
B、2
C、3
D、4

6、在含多分类变量的回归模型中,如果一个分类变量有三个水平,则建模时,应该设定几个哑变量( )
A、0
B、1
C、2
D、3

7、某位经济学家研究国内生产总值(Y)与时间t的关系,尝试用复合函数来进行拟合得 ,则以下叙述不正确的是( )
A、本模型可以通过两边取对数求解
B、模型说明国内生产总值的平均增长速度为14.8%。
C、平均来说,今年的国内生产总值是去年的国内生产总值的1.148倍。
D、本模型无法通过转化为线性回归来求解。

8、某保险公司采取某项革新的速度( Y )与其规模(公司的总资产额)、公司的类型有关( ,股份公司; ,互助公司),研究表明,革新的速度可能还与公司的规模及公司的类型的交互效应有关,即需建立模型 ,则以下叙述中不正确的是 ( )
A、该模型是一个本质线性的模型
B、是否需要加入交互效应,可以采取假设检验的方法来进行,即对 是否等于零进行检验。
C、 可以解释为“股份公司和互助公司采取该项革新的速度平均相差 个月”。
D、不同类型保险公司的回归方程为: 股份公司 ;互助公司 。

案例作业三:多项式回归

1、本案例数据文件请至“第六章案例数据文件”处下载。 案例背景:行驶在告诉公路上的汽车,紧急情况如处理不当,发生了交通事故。显然刹车距离与车速正相关,但经过研究发现,两者并不满足线性关系,而是满足二次回归模型 ,其中t为司机发现紧急情况到踩下刹车的反应时间,一次项 tv 可理解为这个过程汽车向前行驶的一段距离,k为制动系数,二次项 可理解为刹车后由于动能的作用,还要惯性地向前滑行一段距离。为进行比较,同时建立线性回归和三次回归模型。 先进行数据分析,再根据运行结果回答以下问题,答题时选择与运行结果最为接近的数值。 1、拟合二次回归模型可得二次项系数为 ( ) A.-0.8935 B. 0.6211 C. 0.0964 D. -0.0004 2、二次回归模型的AIC信息量为 ( ) A. 112.6 B. 45.52 C. 47.2 D. 48.66 3、用AIC比较线性回归、二次和三次回归模型,可知 ( ) A. 线性回归模型是最优的 B. 二次回归模型是最优的 C. 三次回归模型是最优的 D. 三个模型都是最优的 4、在二次回归模型中,对线性系数进行t检验,可得检验的p值为 ( ) A. 0.001 B. 0.521 C. 0.000 D. 0.279 5、使用二次回归模型对速度v=8时,估计刹车距离为 ( ) A. 12.5066 B. 4.1398 C. 10.3982 D. 10.2464

第七章 Logistic 回归

测验七

1、采用简单线性回归模型求解二分类问题,可能遇到的问题中,以下有( )项是正确的。 I 误差项均值不为零 II 存在异方差 III 存在自相关 IV 正态性假设不成立 V 存在共线性 VI 因变量值域超出范围
A、2
B、3
C、4
D、5
E、6

2、关于S曲线,以下有( )项是正确的。 I 取值在[0,1]之间 II 增长不断加速 III 是激活函数的良好近似 IV 间断、不连续 V 有显示表达,易于分析
A、2
B、3
C、4
D、5

3、关于分组数据Logistic回归,以下步骤错误的是( ) I. 由分组数据计算比例 II. 对比例数据做线性变换 III. 由变换好的数据和自变量建立线性回归 IV. 求解线性回归的最小二乘估计 V. 利用S型函数还原为Logistic模型
A、I
B、II
C、III
D、IV
E、V

4、对某个二元Logistic回归模型,现已估计得 , , 。若取阈值p=0.6,以下各组自变量 的数据中,哪一组将在预测时判定y=1 ( )
A、(0,2)
B、(2,0)
C、(1,1)
D、(0,0)

5、以下有( )个是用于逻辑回归的正确的python函数。 I Logit II Logit.from_formula III LogisticRegression IV OLS V LogisticRegression.from_formula
A、1
B、2
C、3
D、4
E、5

6、关于模型效果评估,以下说法有( )项是正确的。 I 召回率越高则真阳性比例越低 II 对于给定的数据集,无法同时提高精准率和召回率 III ROC空间中的点,越靠近右上方,表示模型整体效果越好 IV 一种分类方法的ROC曲线应当在对角线上方,方法才是有意义的 V AUC数值越大,表示召回率越高
A、1
B、2
C、3
D、4
E、5

7、对某数据集使用分类算法得到以下结果,记“1”为阳性,“0”为阴性 由此计算,真阳性率 假阳性率分别为
A、(0.77,0.143)
B、(0.77,0.23)
C、(0..91,0.09)
D、(0.667,0.091)

8、以下改善非均衡集问题的方法中,哪一个是错误的 ( )
A、改善数据源
B、从样本中抽样
C、采用准确率等评价指标
D、采用加权方法

9、以下哪种函数的图像不具有S形的特征( )
A、
B、arctg(x)
C、正态概率累积分布函数
D、

10、考虑一个三分类问题,采用一对多分类方法,已知对三个子类分别得到的参数的估计值 , , ,若 ,则应判该点属于哪一类? ( )
A、第I类
B、第II类
C、第III类
D、信息不足,无法判断

11、关于非均衡数据,以下哪一项是错误的( )
A、非均衡指的是不同类别的样本比例相差较大
B、会导致准确率不能正确反映建模效果
C、可能导致召回率偏低
D、会导致AUC不准确

12、关于不分组数据Logistic回归,以下说法正确的是( )
A、需要假定误差项服从正态分布
B、不需要引入 S函数的变换
C、可以用最小二乘法求解
D、极大似然法对分组数据也可以使用

13、关于精准率与召回率,以下说法正确的是( )
A、精准率反映第I类错误,召回率反映第II类错误
B、精准率就是真阳性率
C、ROC曲线的画法是精准率为横轴,召回率为纵轴
D、精准率越高越好,召回率越低越好

14、对某二分类模型,求解Logistic回归得到 ,若有样本点 ,则 的概率为( )
A、0.2
B、0.8
C、0.55
D、0.45

案例作业四:逻辑回归

1、本案例搜集无人飞行器运行状态与操控指令类别的数据,状态变量(自变量)x1-x9,为连续变量;操控变量(因变量)y为逻辑变量。问题1-4中考虑y为0-1变量,即二分类问题。问题5进一步考虑y为三元逻辑变量问题。 本例使用sklearn库进行分析,按以下各题要求,先进行数据分析,再根据运行结果答题。答题时选择与运行结果最为接近的数值。 1,二分类问题,对训练集(文件名:shuttle_train_binary.csv)进行Logistic回归,采用默认参数设置,为计算回归参数,运行model. coef_命令,得到的前两个分量的数值结果分别为( ) A. 12,-3 B. 5,-6 C. -2,-7 D. 16,-5 2.. 对训练集最后一行数据,计算y=0的概率,其数值最接近以下哪一项( ) A. 0.90 B. 0.92 C. 0.94 D. 0.96 E. 0.98 3. 将第1小题训练的结果对测试集(文件名:shuttle_test_binary.csv)进行验证,计算测试集中y=1数据的召回率,其结果为( ) A. 0.81 B. 0.84 C. 0.87 D. 0.9 E. 0.95 4. 继续对测试集进行验证,计算AUC的数值结果为( ) A. 0.99 B. 0.97 C. 0.95 D. 0.93 E. 0.90 5. 考虑三分类问题,对训练集(文件名:shuttle_train_ternary.csv)进行Logistic回归,分类方法采用多元逻辑回归(multi_class='multinomial'),求解算法设为solver='sag',其余参数采用默认设置。对回归结果计算其误判矩阵(confusion_matrix),则y=1的数据中被误判为其他两类的数据个数为( ) A. 450 B. 478 C. 500 D. 540

第八章 变量选择与正则化

测验八

1、关于回归模型的变量选择,下述说法中,不正确的是哪个?
A、向前选择方法是从空模型开始,依次添加使得AIC的值增加最快的变量。
B、逐步回归方法是从空模型开始,增加或删除一个变量,比较所得模型的AIC的值。
C、如果变量之间存在多重共线性,也能直接用逐步回归方法来选择变量。
D、评价回归方程的准则有复决定系数、Mallows统计量、和AIC等。

2、关于多重共线性带来的问题与诊断方法,下述说法中,不正确的是哪个?
A、当变量之间存在多重共线性时,设计矩阵的列向量之间会近似线性相关。
B、当变量之间存在多重共线性时,最小二乘法的参数估计可能会增大。
C、一个正定矩阵的条件数指的是它的最大特征值与最小特征值的商。
D、当设计矩阵的条件数大于100时,认为变量之间存在较强的多重共线性。

3、关于方差扩大因子与岭回归,下述说法中,不正确的是哪个?
A、岭回归的思路是用 来代替 , 以提高参数估计的准确度。
B、岭迹图的横坐标是岭参数的值,纵坐标是回归参数的相应的估计值。
C、方差扩大因子里的方差是指因变量的拟合值的方差。
D、岭参数的选择标准之一是让所有方差扩大因子都降低到10以内。

4、关于选择岭参数的方法,下述说法中,不正确的是哪个?
A、观察岭迹图,选取使得参数稳定的最小的岭参数。
B、观察方差扩大因子,选取使得所有参数的方差扩大因子都小于10的最小的岭参数。
C、观察残差平方和,选取使得残差平方和的增加控制在一定范围内的最小的岭参数。
D、交叉验证方法,选取使得交叉验证的误差最小的岭参数。

5、关于各种正则化方法的比较,以下正确的有( )种 I 岭回归是一种筛选变量的良好方法 II LASSO方法不具有压缩性 III 岭回归、LASSO都可用于矫正过度拟合问题 IV 弹性网络是LASSO和岭回归的综合
A、1
B、2
C、3
D、4

6、以下关于LASSO方法理解正确的是( )
A、等价于岭回归
B、参数λ数值越大,越接近于最小二乘
C、参数λ数值越小,正则化效果越好
D、筛选变量效果很强

7、以下函数中,不具有超参数选择功能的是( )
A、LassoCV
B、RidgeCV
C、ElasticNetCV
D、LogitCV

8、关于回归建模中数据集的分类,以下说法错误的是( )
A、训练集用于参数估计
B、测试集用于验证拟合效果
C、验证集用于选择超参数
D、仿真集用于模型动态拟合

9、以下关于弹性网络方法理解正确的是( )
A、可以视为岭回归和LASSO的综合
B、只有一个超参数
C、不能用于变量选择
D、不能用于非线性或Logistic回归

案例作业五:共线性和逐步回归

1、Hald 水泥数据是一个用于解释变量的选择问题的经典例子。人们观察到水泥所放出的热量与生成水泥时所使用的四种成分的含量有关。四种成分分别是铝酸三钙、硅酸三钙、铁铝酸四钙和硅酸二钙,变量名称分别记为 . 每克水泥所放出的热量记为 y.按以下各题要求,先进行数据分析,再根据运行结果答题。答题时选择与运行结果最为接近的数值。 1. 计算自变量之间的相关系数,判断是否存在多重共线性。结果是( ) A. 最大相关系数为, 存在多重共线性。 B. 最大相关系数为 , 存在多重共线性。 C. 最大相关系数为 , 存在多重共线性。 D. 最大相关系数为, 存在多重共线性。 2. 计算四个自变量的方差膨胀因子,结果依次为( ) A. VIF1=36.5, VIF2=234.42, VIF3=44.87, VIF4=262.51. B. VIF1=37.5, VIF2=244.42, VIF3=45.87, VIF4=272.51. C. VIF1=38.5, VIF2=254.42, VIF3=46.87, VIF4=282.51. D. VIF1=39.5, VIF2=264.42, VIF3=47.87, VIF4=292.51. 3. 记 X 为未经中心标准化的自变量数据,计算 的条件数,结果为( ) A. . B. . C. . D. . 4. 计算下述两个回归模型的AIC, 结果分别为( ) A. 61.31 和 75.74. B. 62.31 和 76.74. C. 63.31 和 77.74. D. 64.31 和 78.74. 5. 按以下流程用后退法确定回归模型:首先选入所有变量建立回归模型,而后按 AIC 准则剔除部分变量,再在剩余变量中剔除不显著的变量,由此得到的最优模型为( ) A. . B. . C.. D. .

案例作业六:模型正则化

1、本案例搜集某年度34个地区的失业率与相关经济指标数据,变量含义为 y y:失业率;x.gdprate:GDP变动率;x.govspend:支出与GDP比值;x.tax:税收负担;x.salav:薪水与净增值的比值;x.infl:通货膨胀率。为进一步考虑考虑交叉因素,引入全部二次项,总共有20个特征项。 数据文件为unemp.csv。其中标签项y的数据为原始数据,特征项数据已经过标准化。 本例使用sklearn库进行分析,按以下各题要求,先进行数据分析,再根据运行结果答题。答题时选择与运行结果最为接近的数值。 1 将因变量y的数据做标准化,而后对自变量数据的前5列(x.gdprate-x.infl)做岭回归,调用Ridge函数,岭参数设为alpha=0.15,其余取默认参数。得到的岭回归估计向量的第二个分量为( ) A. 0 B. -0.12 C. 0.545 D. 0.64 E. 0.81 2 在第一题的模型中,为确定岭参数的最优值,调用RidgeCV重新进行回归,试验参数序列由命令:alphas=np.linspace(0.0001,0.5,1000) 设定,则在该组试验参数中,计算得到的最优岭回归参数 alpha 的值为( ) A. 0.05 B. 0..15 C. 0.25 D. 0.35 E. 0.45 3. 使用y的原始数据,对全部的自变量进行回归,使用Lasso函数,正则化参数lamb=0.05,其余取默认值。得到的参数估计向量中,非零项有( ) 个(绝对值小于10-5的数值视为0)。 A. 4 B. 5 C. 8 D. 10 E. 15 4. 在上一题的模型中,使用LassoCV确定正则化参数的取值,设定参数cv=20,其余取默认值,得到的最优正则化参数为( ) A. 0.03 B. 0.05 C. 0.08 D. 0.12 E. 0.15 5. 使用y的原始数据,对全部的自变量进行回归,使用ElasticNet函数,设定L1正则项参数l1_ratio=0.95,L2正则项参数alpha=0.15,其余取默认值。得到的参数估计向量中,非零项有 ( ) 个 (绝对值小于10-5的数值视为0)。 A. 4 B. 6 C. 8 D.10 E. 12

考试

考试

1、现象之间存在着不确定的数量关系,这种关系称为( )
A、函数关系
B、回归关系
C、线性关系
D、相关关系

2、关于机器学习方法,以下说法正确的是
A、机器学习比数理统计方法更先进
B、通常不假定总体具有正态分布
C、机器学习需要进行各种假设检验
D、机器学习无法对算法效果进行评估

3、关于Python的Pandas模块和StatsModels模块,下述说法中,不正确的是哪个?( )
A、Pandas模块提供了适合统计分析的两种数据结构,即数据框和时间序列。
B、Pandas模块是以Matplotlib模块作为基础的。
C、在StatsModels模块里,可以使用数据框和模型公式来实现线性回归。
D、在StatsModels模块里,还能实现方差分析和时间序列模型的分析。

4、关于Python的Numpy和Pandas模块,下述说法中,不正确的是哪个?( )
A、Numpy模块是Python进行科学计算的基本模块。
B、Numpy模块提供了多维数组 ndarray 这个数据类型。
C、Pandas模块提供了适合统计分析的数据框和时间序列这两种数据类型。
D、在Pandas模块的数据框里,每一行是某个变量的不同观测值。

5、设某商品的价格X(元)和其需求量Y(斤)之间的回归方程为Y=140-10X,这意味着该商品的价格每提高1元时,其需求量平均( )
A、增加10斤
B、增加130斤
C、减少10斤
D、减少130元

6、已知总平方和SST=500,残差平方和SSE=31,则决定系数 =( )
A、93.8%
B、6.2%
C、94.16%
D、6.61%

7、为研究产品的销售额x(万元)与销售利润 y(万元)之间的关系,某公司对所属的一些企业进行了调查,估算得到两者之间的回归方程为 ,则当销售额为50万元时,预测销售利润为 ( )万。
A、0.232
B、-8.533
C、11.6
D、3.067

8、某昆虫学家认为蟋蟀每分钟叫的平均次数y可能和当日最高气(华氏)有关,收集数据后建模得到以下软件输出,如采用t检验的方法检验蟋蟀叫的平均次数与当日最高气温之间的线性关系是否显著,其统计量的实现值为( )
A、2.546
B、0.192
C、0.032
D、6.517

9、对线性回归模型进行分析时需要的基本假设,以下叙述错误的是( )
A、误差项是一个期望值为0的随机变量
B、对于所有x,的方差都相同
C、误差项是一个服从均匀分布的随机变量
D、对于不同水平的x,误差项不相关

10、第10-15题依据如下信息: 经济学家欲研究公司销售额(y,单位:百万元)和资本量(x1,单位:百万元)和每月工资支出(x2,单位:百万元)的影响。选取了26家大型企业的数据,建立多元回归模型,得到的部分结果如下: 表-1 根据表-1, 以α=0.1为标准,常数项和自变量中显著的有( )个。
A、0
B、1
C、2
D、3

11、已知某公司资本量2500万元,月工资支出1500万元, 则预测企业销售额为( )(百万)?
A、267.25
B、11083.55
C、109.25
D、336.77

12、根据表-1, 变量x2的标准误为( )?
A、7.51
B、2.169
C、1.473
D、0.204

13、根据表-1, 销售额的离差平方和不能够被自变量的解释的比例为( )?
A、33.8%
B、31.1%
C、68.9%
D、66.2%

14、根据表-1提供的信息, 反映回归方程整体显著性的F统计量的值为( )?
A、2.215
B、22.524
C、2.6
D、25.432

15、根据表-1提供的信息, 调整决定系数的值为( )
A、0.338
B、0.311
C、0.689
D、0.662

16、关于异方差的检验与处理,下述说法中,不正确的是哪个( )?
A、观察残差图,如果看到残差的绝对值与自变量有关,那么认为存在异方差。
B、计算残差的绝对值大小的排名,与自变量的大小的排名,计算这两个排名之间的等级相关系数,再计算等级相关系数检验统计量,如果落在拒绝域,那么认为存在异方差。
C、加权最小二乘法的思路是给每组观察值乘以一个不同的权重,以达到所有组的观察值都具有相同方差的假设条件。
D、变量代换法和加权最小二乘法是处理异方差问题的两种完全不同的方法。

17、关于违背回归模型基本假设的自相关问题,下述说法中,不正确的是哪个( )?
A、时间序列数据由于变量之间的影响有滞后性,经常出现自相关现象。
B、如果回归模型中缺少关键变量,那么误差项也会反映出自相关现象。
C、自相关现象是指不同组的观察数据的误差项之间呈现出较强的相关关系。
D、如果按照时间先后,一个正的残差后面跟着一些正的残差,一个负的残差后面跟着一些负的残差,那么这个残差序列就呈现一阶负相关现象。

18、自相关检验的一个重要方法是计算DW统计量并进行检验。下述说法中,不正确的是哪个?
A、DW检验的零假设是残差的一阶自相关系数等于零,对立假设是一阶自相关系数不等于零。
B、DW统计量计算了所有相邻残差的差的平方和。
C、DW统计量的值越大,说明自相关问题越严重。
D、经济模型中,残差经常出现一阶正自相关现象。

19、阅读下述案例材料, 完成第19-24题。 研究某地区的居民消费x=expenditure和y=stock股市指数的关系,得到回归结果如下: 得到回归直线、残差图、杠杆值和库克距离等图像如下: 查看回归模型的结果,可知回归直线的方程为哪个?
A、y=71.7813+0.4161x
B、y=5.06+0.021x
C、y=14.186+20.08x
D、y=61.151+0.373x

20、查看残差图,可知该回归模型存在什么问题?()
A、异?差现象
B、?相关现象
C、多重共线性现象
D、观察数据没有明显违背基本假设

21、本例中,n=20,p=1,按照杠杆值大于平均杠杆值的2倍的标准,判断哪些点可能是异常点?
A、第一个点
B、最后一个点
C、第一个和最后一个点
D、没有异常点

22、按照库克距离小于0.5就认为不是强影响点,大于0.9就认为是强影响点的标准,判断哪些点是强影响点?
A、第一个点
B、最后一个点
C、第一个点和最后一个点
D、没有强影响点

23、按照学?化残差的绝对值?于2就认为是异常点的标准,判断哪些点是异常点?
A、第一个点
B、最后一个点
C、第一个和最后一个点
D、没有异常点

24、利用DW值估计残差的一阶自相关系数是多少?
A、0.841
B、0.682
C、0.318
D、0.159

25、在回归模型 中,当x1固定不变时,x2每增加一个单位,因变量y的均值变动量为 ( )
A、
B、
C、
D、

26、以下模型中,属于本质线性回归模型的是( )
A、
B、
C、
D、

27、在含多分类变量的回归模型中,如果一个分类变量有四个水平,则建模时,应该设定几个哑变量 ( )
A、1
B、2
C、3
D、4

28、某学者想研究生猪饲料种类及初始体重对生猪体重增加的影响,因变量是生猪体重增加,因变量 y 是生猪体重增加,自变量 为生猪初始体重,自变量 是饲料种类,共有品种1,品种2,品种3三种,如果想把品种1作为对照组,则应如何设置哑变量 ( )
A、
B、
C、
D、以上都可以

29、阅读下述案例材料, 完成第29-31题。 对某数据集使用分类算法得到以下结果,记“1”为阳性,“0”为阴性 由表中信息,精准率为()
A、0.854
B、0.772
C、0.888
D、0.93

30、由表中信息,召回率为( )
A、0.854
B、0.772
C、0.888
D、0.93

31、由表中信息,假阳性率的值为( )
A、0.15
B、0.075
C、0.111
D、0.227

32、对某二分类模型,求解Logistic回归得到 ,若有样本点 , ,如两个值对应的因变量 被预测为0,被预测为1,则阈值可能为( )
A、0.4
B、0.5
C、0.6
D、0.7

33、对某二分类模型求解Logistic回归,得到某样本点因变量为1的概率为0.7,则该点的发生比为( )
A、0.3
B、2.33
C、1.65
D、0.429

34、某三分类问题,采用多元Logistic回归,对某样本点,得到其属于I、II、III三类的概率分别为 0.25,0.35、0.4,则该点应被判为( )
A、第I类
B、第II类
C、第III类
D、都有可能

35、阅读下述案例分析,完成第35-38题。 某多元回归模型,因变量 为Y, 其余六个变量为自变量。使?Python 程序进?回归分析,得到下述结果。 (a) 计算得到?差扩?因?和矩阵 的特征值如下表: (b)使用逐步回归,最后一步的结果如下: (c) 岭迹图如下: 使用逐步回归方法,按照AIC 标准选取变量,最后的模型是哪个?( )
A、y ~ x1 + x2 + x3
B、y ~ x1 + x2 + x4
C、y ~ x2 + x3 + x4
D、y ~ x1 + x2

36、查看岭迹图,可知哪两个自变量的系数的绝对数值较大? ( )
A、x1, x2
B、x3, x4
C、x1, x4
D、x2, x3

37、根据方差扩大因子,哪个自变量最可能涉及多重共线性问题?( )
A、x1
B、x2
C、x3
D、x4

38、记 X 是标准化数据的设计矩阵,则矩阵 的条件数是多少?是否存在严重的多重共线性?
A、1902, 存在。
B、2019, 存在。
C、1902, 不存在。
D、2019, 不存在。

39、以下几种方法中,变量选择的稀疏性最强的是( )
A、岭回归
B、LASSO
C、加权最小二乘
D、弹性网

40、关于在回归中引入正则化方法的作用,以下说法错误的是( )
A、可用于防止过度拟合
B、可用于克服数值不稳定
C、可用于减轻共线性
D、可用于将离散变量转化为连续变量

学习通应用回归分析_3

回归分析是统计学中的一种方法,通过检查自变量和因变量之间的关系,来预测因变量的值。在学习通应用中,回归分析可以被用来预测学生的表现以及他们在课程中的成功。

回归分析的类型

有多种不同类型的回归分析,每种回归分析类型都有其特定的应用场景。以下是一些常见的回归分析类型:

  • 简单线性回归:当只有一个自变量和一个因变量的时候使用。
  • 多元线性回归:当有多个自变量和一个因变量的时候使用。
  • 逻辑回归:当因变量是二元的(成功/失败,真/假等)时使用。

在学习通应用中使用回归分析

学习通应用可以使用回归分析来预测学生在课程中的成功。以下是一些方法来实现回归分析:

数据收集

首先,需要收集有关学生和课程的数据。这些数据可能包括学生的性别、年龄、先前的课程成绩、参加课程的时间等。为了进行回归分析,必须确定一个主要的因变量和多个自变量。

数据清理

在进行回归分析之前,需要清理数据。这意味着要删除缺少数据的学生或者课程,或者在数据中进行一些必要的更改。例如,如果一个学生的性别数据被错误地输入为“未知”,则可以将其更改为“男”或“女”。

建立模型

在建立回归模型之前,需要确定哪些自变量与因变量之间存在关系。可以使用一些统计工具,如相关性分析和散点图来确定这些关系。然后,可以使用回归模型来预测因变量。可以使用学习通应用中的回归工具来建立模型。

模型评估

最后,需要评估模型的效果。可以使用一些统计指标,如均方误差和决定系数来评估模型的准确性。如果模型不够准确,则需要重新收集数据,清理数据,并重新建立模型。

结论

回归分析是一种有用的工具,可用于预测学生在课程中的成功。通过收集和清理数据,建立回归模型,并评估模型的效果,可以获得准确的预测结果。学习通应用提供了强大的回归工具,可以帮助学生和教师预测课程成就。