moocPYTHON数据分析基础_1期末答案(慕课2023完整答案)

分类: 数学问答发布于:2024-06-02 14:08:57ė84300次浏览603条评论

moocPYTHON数据分析基础_1期末答案(慕课2023完整答案)

第1章 简明Python基础串讲

1.2 Python程序流程控制、数据函数随堂测验

1、分析关于Python语言的基础特点,以下选项中描述错误的期末是:
A、Python语言是答案答案非开源语言
B、Python语言是慕课跨平台语言
C、Python语言是完整脚本语言
D、Python语言是数据多模型语言

2、关于Python的分析无限循环,以下选项中描述错误的是:
A、无限循环通过while保留字构建
B、基础无限循环需要提前确定循环次数
C、期末无限循环一直保持循环操作,答案答案直到循环条件不满足才结束
D、无限循环也称为条件循环

3、慕课关于break语句与 continue 语句的完整说法中,以下选项中不正确的是:
A、当存在多层循环时,数据break 语句只作用于语句所在层循环
B、continue 语句类似于break 语句,也必须在for,while循环中使用
C、continue 语句结束循环,继续执行循环语句的后续语句
D、break 语句结束循环,继续执行循环语句的后续语句

4、关于函数,以下选项中描述错误的是:
A、函数使用时需要了解函数内部实现细节
B、函数:具有特定功能的可重用代码片段,实现解决某个特定问题的算法
C、函数在需要时被调用,其代码被执行
D、函数主要通过接口(interface)与外界通信,传递信息

5、关于Python的lambda函数,以下选项中描述错误的是:
A、lambda用于定义简单的、能够在一行内表示的函数
B、可以使用lambda函数定义列表的排序原则
C、f=lambda x,y:x+y执行后,f的类型为数字类型
D、lambda函数将函数名作为函数结果返回

1.3 Python组合数据类型:列表、元组、字典、集合随堂测验

1、以下选项中不能生成一个空字典的是:
A、{ }
B、dict()
C、dict([])
D、{ []}

2、S和T是两个集合,对SIT的描述正确的是:
A、S和T的补运算,包括集合S和T中的非相同元素
B、S和T的并运算,包括在集合S和T中的所有元素
C、S和T的差运算,包括在集合S但不在T中的元素
D、S和T的交运算,包括同时在集合S和T中的元素

3、关于 Python 的元组类型,以下选项中描述错误的是:
A、元组一旦创建就不能被修改
B、Python 中元组采用逗号和圆括号(可选)来表示
C、元组中元素不可以是不同类型
D、一个元组可以作为另一个元组的元素,可以采用多级索引获取信息

4、关于Python组合数据类型,以下选项中描述错误的是:
A、Python 组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序、更容易
B、组合数据类型可以分为3类:序列类型、集合类型和映射类型
C、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问
D、Python的 str、tuple和list类型都属于序列类型

5、关于Python序列类型的通用操作符和函数,以下选项中描述错误的是:
A、如果s是一个序列,x是s的元素,x in s返回 True
B、如果s是一个序列,x不是s的元素,x not in s返回 True
C、如果s是一个序列,s=[1,"kate",True],s[3]返回 True
D、如果s是一个序列,s =[1,"kate",True],s[-1]回 True

测验1 Python基础编程

1、假设a=9,b=2,那么下列运算中,错误的是:
A、a+b的值是11
B、a//b的值是4
C、a%b的值是1
D、a**b的值是18

2、下列选项中不符合Python语言变量命名规则的是:
A、I
B、AI
C、TempStr
D、3_1

3、random 库中用于生成随机小数的函数是:
A、random()
B、ranint()
C、getrandbits()
D、randrange()

4、TempStr ="Hello World" 可以输出“World”子串的是:
A、print(TempStr[–5:])
B、print(TempStr[–4: –1])
C、print(TempStr[–5:0])
D、print(TempStr[–5: –1])

5、关于import引用,以下选项中描述错误的是:
A、import保留字用于导入模块或者模块中的对象
B、可以使用from turtle import setup 引入turtle库
C、使用import turtle as t引入turtle库,取别名为t
D、使用import turtle引入turtle库

6、运行下面的一段程序,最终输出的结果为: def test(a,b,*args): print(args) test(11,22,33,44,55)
A、(11, 22, 33)
B、(33, 44, 55)
C、(11, 22, 33, 44, 55)
D、(44, 55)

7、表达式“[3] in [1, 2, 3, 4]”的值为False。

8、列表、元组、字符串是Python的有序序列。

9、假设列表对象aList的值为[3, 4, 5, 6, 7, 9, 11, 13, 15, 17],那么切片aList[3:7]得到的值是[6, 7, 9, 11] 。

10、可以使用del命令来删除元组中的部分元素。

11、Python提供了两种基本的循环结构:for循环和 while循环。

12、lambda表达式只能用来创建匿名函数,不能为这样的函数起名字。

13、下面代码的输出结果是 ___ for s in "HelloWorld": if s=="W": continue print(s,end="")

14、a = [1,2,3,5,2] a.sort(reverse=True) a.reverse() print(a) 上述程序最终执行的结果为:

15、在一行中输入若干个0—9的数字,数字之间用空格分隔,以下代码会输出0-9这10个数字在输入中出现的次数。 补充横线处代码。 a = map(int,input().split()) m = (1) for x in a: m[x] = m.get(x,0)+1 for k in m.keys() print(k,m[k])

16、下面代码的运行结果是 : def func(num): num+=1 a=11 a=10 func(a) print(a)

作业1Python基础编程

1、1. 编写Python程序实现功能:从键盘输入若干同学的姓名,保存在字符串列表中。输入某个同学的名字,检索是否已保存列表中。

2、2. 编写Python程序实现功能:使用字典记录同学的姓名及对应身高,输入任意同学的姓名,查找并显示所有高于此身高的同学信息。

第2章 多维数据结构与运算

2.3 案例:随机游走轨迹模拟随堂测验

1、下面________不是大数据的特征。
A、规模性
B、高速性
C、多样性
D、低价值性

2、下面关于数据科学与大数据之间的关系描述,错误的是________。
A、大数据属于数据科学的范畴
B、大数据分析遵循数据科学处理问题的基本工作流程
C、大数据分析采用的技术完全不同于数据科学技术
D、大数据技术是指数据量达到某种规模时引入的分布式存储、计算和传输等方法

3、names=np.array([’马化腾’,’李彦宏’,’雷军’,’扎克伯格’]),names[2]的值是________。
A、马化腾
B、李彦宏
C、雷军
D、扎克伯格

4、记录同学成绩的scores数组如下,scores[ 1:3, [2,5]] 取得的数据是________。 scores: array([[70, 85, 77, 90, 82, 84, 89], [60, 64, 80, 75, 80, 92, 90], [90, 93, 88, 87, 86, 90, 91], [80, 82, 91, 88, 83, 86, 80], [88, 72, 78, 90, 91, 73, 80]])
A、array( [ [80,92], [88,90]] )
B、array( [ [64,80], [93,86]] )
C、array( [ [85,84],[64,92], [93,90]] )
D、array( [ [64,92], [93,90],[82,86]] )

5、names记录同学名字,subjects记录考试科目数据中,scores记录同学成绩,求Python课程成绩的最高分的语句________。 names: array(['王微', '肖良英', '方绮雯', '刘旭阳','钱易铭', dtype='<U3') subjects: array(['Math', 'English', 'Python', 'Chinese', 'Art', 'Database', 'Physics'], dtype='<U8') scores: array([[70, 85, 77, 90, 82, 84, 89], [60, 64, 80, 75, 80, 92, 90], [90, 93, 88, 87, 86, 90, 91], [80, 82, 91, 88, 83, 86, 80], [88, 72, 78, 90, 91, 73, 80]])
A、scores[subjects=='Python'].max()
B、scores[:,subjects=='Python'].max()
C、scores(subjects=='Python').max()
D、scores[subjects=='Python', : ].max()

测验2多维数据结构与运算

1、将一维数组转化为多维数组的numpy函数是________。
A、arange()
B、reshape()
C、zeros()
D、ones()

2、subjects=np.array(['Math', 'English', 'Python', 'Chinese', 'Art', 'Database', 'Physics']), mask=(subjects=='English'|subjects=='Art')。则mask数组中值为True的元素个数是________。
A、2
B、3
C、4
D、5

3、淘宝卖家销售10斤一箱的陕西红富士,应采用________来模拟生成40箱苹果的重量较合理。
A、np.random.radint(6, 15, 40)
B、np.random.uniform(8,12,40)
C、np.random.normal(10, 5, 40)
D、np.random.normal(10, 1, 40)

4、下列能实现将shape为dtype[5,7] 的scores数组所有元素都加10的语句是________。
A、scores + 10
B、np.add(scores, 10)
C、scores[10].add(10)
D、scores + [10,10,10,10,10,10,10]

5、如果某便利店开有多家门店,为了分析各门店各种奶制品每天的销售情况,需要建立________,以便分析。
A、2个一维数组,分别存放门店名称、商品名称
B、3个一位数组,分别存放门店名称、商品名称、时间
C、2个二维数组,1个存放每个门店的每个商品在本月的总销量,1个存放每天每个商品在所有门店的销量
D、1个三维数组,存放每个门店的每个商品在每天的销量

作业2多维数据结构与运算

1、作业题1 1.“大润发”、“沃尔玛”、“好德”和“农工商”四个超市都卖苹果、香蕉、橘子和芒果四种水果。使用NumPy的ndarray实现以下功能。 1)创建两个一维数组分别存储超市名称和水果名称。 2)创建一个4×4的二维数组存储不同超市的水果价格,其中价格由4~10范围内的随机数生成。 3)选择“大润发”的苹果和“好德”的香蕉,并将价格增加1元。 4)“农工商”水果大减价,所有水果价格减2元。 5)统计四个超市苹果和芒果的销售均价。 6)找出橘子价格最贵的超市名称(不是编号)。

2、2.基于2.3节中随机游走的例子,使用ndarray和随机数生成函数模拟一个物体在三维空间随机游走的过程。 1)创建3×10的二维数组,记录物体每步在三个轴向上的移动距离。在每个轴向的移动距离服从标准正态分布(期望为0,方差为1)。行序0、1、2分别对应x轴、y轴和z轴。 2)计算每步走完后物体在三维空间的位置。 3)计算每步走完后物体到原点的距离(只显示两位小数)。 4)统计物体在z轴上到达的最远距离。 5)统计物体在三维空间距离原点的最近值。 【提示】使用abs()绝对值函数对z轴每步运动后的位置求绝对值,然后求最大距离。

第3章 数据汇总与统计

3.1Pandas数据结构随堂测验

1、创建5名篮球运动员身高的Series结构对象height,值是身高,索引为球衣号码。 height=Series([187,190,185,178,185],index=['13','14','7','2','9']) 问:print(height['13'])是什么?
A、187
B、190
C、185
D、178

2、创建5名篮球运动员身高的Series结构对象height,值是身高,索引为球衣号码。 height=Series([187,190,185,178,185],index=['13','14','7','2','9']) 问:print(height.ilic[0])是什么?
A、185
B、190
C、178
D、187

3、data = [[19,170,68],[20,165,65],[18,175,65]] students = DataFrame(data, index=[1,2,3], columns=['age','height','weight']) 问:print(students['weight'][1])的结构是?
A、65
B、68
C、58
D、67

3.2数据文件读写、数据清洗、数据规整化随堂测验

1、DataFrame对象的列索引通常表示________。
A、列的数据类型
B、每列数据对应的现实概念
C、列的位置信息
D、每列数据的总数

2、DataFrame对象df中基于位置序号选取第2行第3列数据的方式是_______。(序号从0开始)
A、df.loc[1,2]
B、df.iloc[1,2]
C、df.find(1,2)
D、df.rloc[1,2]

3、CSV文件是_______,可以使用_______查看。
A、图像文件,画图工具查看
B、ppt文件,powerpoint查看
C、纯文本文件,文本编辑器
D、word文件,word查看

4、关于DataFrame和Series对象,下列叙述正确的是_______。
A、DataFrame对象只能用于处理两维数据
B、DataFrame对象不能转化为Series对象
C、Series对象主要用于处理一维数据
D、Series对象可以用来处理多维数据

5、创建height对象,_______语句能选出高度为190的数据。 height=Series({ '13':187,'14':190,'7':185,'2':178,'9':185})
A、height[height.values > 190]
B、height[1]
C、Height[‘7’]
D、height[0]

3.3统计分析随堂测验

1、data = [[19,170,68],[20,165,65],[18,175,65]] students = DataFrame(data, index=[1,2,3], columns=['age','height','weight']) print(students.loc[1,'age'])
A、19
B、20
C、18
D、20

2、data = [[19,170,68],[20,165,65],[18,175,65]] students = DataFrame(data, index=[1,2,3], columns=['age','height','weight']) print(students['weight'][1])
A、65
B、68
C、19
D、18

测验3 数据汇总与统计

1、创建students对象,下面语句筛选出_______大于67公斤同学的_______。 students数据如下: age height weight 1 19 170 68 2 20 165 65 3 18 175 65 students.loc[students[‘weight’]>67, ‘height’]
A、身高、体重
B、体重、年龄
C、体重、身高
D、年龄、身高

2、关于数据文件读写,_______是错误的描述。
A、csv数据文件用换行符来区分数据行
B、文件中第一行必须给出列的索引名(columns),否则pandas无法读取各列内容
C、pandas读取的数据文件中可以包含中文字符组成的数据
D、读取excel文件时,可以为 sheetname 参数赋值,以读取指定表单的数据

3、使用merge方法对DataFrame对象temp1和temp2进行列上的合并时,设置参数________,实现按照两个对象键值的交集进行合并。
A、how=right
B、how=left
C、how=inner
D、how=outer

4、可以使用DataFrame对象的corr()方法求两列数据的相关系数,关于相关系数的描述中________是正确的。
A、不能通过相关系数判断两列数据的相关性
B、相关系数越大,两列数据的相关性越弱
C、相关系数是一个大于0小于1的值
D、相关系数为零时两列数据相关性最小

5、创建students对象,_______语句可以选出第二个同学的身高。 students数据如下: age height weight 1 19 170 68 2 20 165 65 3 18 175 65
A、students.loc[2,'height']
B、students.iloc[1, 1]
C、students[1,'height']
D、students['height'][3]

6、关于DataFrame数据对象的添加和删除操作,_______是正确的描述。
A、DataFrame对象不能直接添加新的列数据
B、可以设置axis的值删除DataFrame指定行或列的数据
C、DataFrame对象不能直接添加新的行数据
D、DataFrame中数据元素的值不能修改

7、在数据统计中,均值和中位数是相同的概念

8、dataFrame对象使用sort_values方法按照某列进行排序后,只有该列数据按顺序调整位置,其他列保此原顺序不变。

9、数据记录了我国4个直辖市第一(种植业、林业、牧业和渔业)、第二(采掘业,制造业,电力、煤气、水的生产和供应业、建筑业)、第三产业(其他)2017年产值的增加量(单位:亿元)。创建了如下数据表: from pandas import DataFrame data = [[98.99,9251.40,20783.47], [120.45,5310.63,22569.27], [218.28,7590.36,10786.74], [1339.62,8596.61,9564.04]] value=DataFrame(data,index=['上海','北京','天津','重庆'], columns =['第一','第二','第三']) 现在需要在value中新增一列‘总增量’,记录每个城市的三类产业产值增量总和,使用语句:value['________'] =value.sum(axis = 1)

10、清洗数据有滤除和填充两种方法,当数据集比较小时,应尽量选择数据________的方式来清洗数据。

作业3-数据汇总与统计

1、根据某系的实验教学计划,完成以下分析: 1.读取DataScience.xls文件数据,创建为data数据对象; 2.查询df的数据量和基本结构(df.index,df.columns); 3.查询df中是否含有NaN数据?将含有NaN数据的行导出为数据文件pre.csv,判断采用何种数据清洗模式:填充、删除或手工填充; 4.查询课程名称、实验项目名称、实验类型和二级实验室四列数据内容; 5.统计每一门课程的实验课时数; 6.统计每周开设所有实验课时数; 7.统计每门课程的实验类型分布(crosstab); 8.统计每个班级的实验课课表; 9.分析各二级实验室承担的实验课时量; 10.分析各二级实验室能够支持的实验类型。

第4章 数据可视化

4.1Python绘图基础随堂测验

1、下面关于使用pyplot和pandas提供的绘图函数的说法中,错误的是_________。
A、pandas提供的绘图函数使用更快捷。
B、Series、DataFrame对象都提供plot()函数。
C、相比较pandas绘图,pyplot提供更多图元绘制函数,能提供更精细的绘图方式。
D、在同一figure对象中,pyplot和pandas的绘图函数不可以混合使用。

2、比较3个班级学生高数成绩的分位数分布并观察异常值,可选择_________。
A、柱状图
B、直方图
C、密度图
D、箱须图

3、下列哪些图形用于展示离散数据:
A、散点图
B、柱状图
C、直方图
D、饼图

4.2可视化数据探索随堂测验

1、绘制多个子图的正确方法是_________。
A、导入matplotlib.pyplot库,创建figure对象,调用figure.subplot函数。
B、导入pandas.pyplot库,创建figure对象,调用figure.add_subplot函数。
C、导入matplotlib.pyplot库,创建figure对象,调用figure.add_subplot函数。
D、导入pandas.pyplot库,创建figure对象,调用figure.subplot函数。

2、下面关于直方图的说法中,错误的是_________。
A、直方图的横坐标按区间个数等分。
B、每个区间上长方形的高度表示该区间样本的频率。
C、分箱的数量与数据集的分布无关。
D、直方图可用来描述总体的频数分布情况。

3、关于饼图的描述,错误的是_________。
A、描述总体各样本区间的样本数量。
B、描述总体的样本值的构成比。
C、每个扇形表示一类样本占总体的百分比。
D、反映样本部分与整体之间的数量关系。

测验4 数据可视化

1、下面关于使用pyplot和pandas提供的绘图函数的说法中,错误的是_________。
A、pandas提供的绘图函数使用更快捷
B、Series、DataFrame对象都提供plot()函数
C、相比较pandas绘图,pyplot提供更多图元绘制函数,能提供更精细的绘图方式
D、在同一figure对象中,pyplot和pandas的绘图函数不可以混合使用

2、比较3个班级学生高数成绩的分位数分布并观察异常值,可选择_________。
A、柱状图
B、直方图
C、密度图
D、箱须图

3、绘制多个子图的正确方法是_________。
A、导入matplotlib.pyplot库,创建figure对象,调用figure.subplot函数。
B、导入pandas.pyplot库,创建figure对象,调用figure.add_subplot函数。
C、导入matplotlib.pyplot库,创建figure对象,调用figure.add_subplot函数。
D、导入pandas.pyplot库,创建figure对象,调用figure.subplot函数。

4、下面关于直方图的说法中,错误的是_________。
A、直方图的横坐标按区间个数等分。
B、每个区间上长方形的高度表示该区间样本的频率。
C、分箱的数量与数据集的分布无关。
D、直方图可用来描述总体的频数分布情况。

5、关于饼图的描述,错误的是_________。
A、描述总体各样本区间的样本数量。
B、描述总体的样本值的构成比。
C、每个扇形表示一类样本占总体的百分比。
D、反映样本部分与整体之间的数量关系。

6、_________可用于展示离散数据。
A、柱状图
B、折线图
C、饼图
D、曲面图

7、观察男、女同学对“数据科学”课程的兴趣程度与课程成绩之间的关系,应使用分组_________。

8、DataFrame对象temp记录了8个城市4个季度的第三产业产值,利用DataFrame.plot绘制柱状图时,可以设置参数_________控制画堆叠或复式柱状图。

9、利用Series.plot绘制概率密度图时,将kind参数设置为_________。

10、观察样本多个属性值两两之间的相关性,可采用pandas提供了散点图矩阵pd.plotting._________函数。

作业4 数据可视化

1、文件bankpep.csv存放着银行储户的基本信息. 请通过绘图对这些客户数据进行探索性分析。 1)客户年龄分布的直方图和密度图 2)客户年龄和收入关系的散点图 3)绘制散点图观察账户(年龄,收入,孩子数)之间的关系,对角线显示直方图 4)按区域展示平均收入的柱状图,并显示标准差 5)多子图绘制:账户中性别占比饼图,有车的性别占比饼图,按孩子数的账户占比饼图 6)各性别收入的箱须图

第5章机器学习建模分析

5.1机器学习概述随堂测验

1、目前人工智能技术,特别是机器学习,主要模拟了人的_________思维过程。
A、学习
B、推理
C、思考
D、规划

2、关于人工智能、机器学习、深度学习三者的关系,正确的是_________。
A、三者交叉
B、人工智能包含机器学习,机器学习包含深度学习。
C、机器学习包含人工智能和深度学习。
D、人工智能包含深度学习,深度学习包含机器学习

5.2回归分析随堂测验

1、________属于机器学习中的回归问题。
A、识别车牌
B、根据房屋特性预测房价
C、预测短信是否为垃圾短信
D、机场安检人脸识别

2、建模分析时,通常用于训练的样本数量_________测试集的样本数量。
A、小于
B、等于
C、小于等于
D、大于

5.3分类分析随堂测验

1、构建决策树的算法在数据集中选择合适的_________作为树的结点。
A、特征项
B、特征项的值
C、样本
D、分类评价指标

2、分类预测的结果可以是二分类问题,也可以是多分类问题。

3、预测邮件是否为垃圾邮件,是一个典型的二分类问题。

5.4聚类分析随堂测验

1、评估聚类方法的性能用______.
A、兰德指数
B、轮廓系数
C、决定系数
D、准确率

2、K-means算法用于________问题。

5.5神经网络和深度学习随堂测验

1、近年来,随着___的增强和____出现,深度学习技术呈现爆发式发展。
A、计算能力
B、硬件能力
C、软件能力
D、大数据

2、scikit-learn从0.18以上的版本开始提供神经网络的学习算法库,_____是一个基于多层前馈网络的分类器。

第5章单元测验

1、score可用于衡量分类模型性能,根据以下混淆矩阵,F1 = _________。 真实类 预测类 Class = Yes Class = No Class = Yes(正例) a b Class = No(反例) c d
A、a/(a+c)
B、2a/(2a+b+c)
C、(a+d)/(a+b+c+d)
D、a/(a+b)

2、数据建模分析,_________方法需要计算样本之间的距离。
A、k-means
B、随机森林
C、决策树
D、线性回归

3、K-means算法中K表示_________。
A、聚类得到的类别数
B、聚类算法迭代的次数
C、样本间距离计算的方法
D、算法性能的评价指标

4、关于聚类分析的说法,不正确的是_________。
A、聚类可作为分类等其他任务的预处理过程
B、聚类分析目标是使同一个簇中的样本相似度较高,而不同簇间的样本相似度较低
C、“簇”越多说明聚类效果越好
D、聚类是无监督学习方法

5、K-means算法的核心是_________。
A、样本数据标准化
B、确定簇的个数
C、样本间相似度计算
D、样本数据降维

6、关于训练神经网络的说法中,不正确的是_________。
A、是一个不断调整神经元之间的“连接权重”以及每个神经元偏置项的过程
B、神经网络的隐藏层越少,训练时间越长
C、一般用误差反向传播(BP)算法训练神经网络
D、常用的优化器(optimizer)包括adam,sgd,lbfgs等

7、_________属于有监督学习(Supervised Learning)的任务。
A、回归问题(Regression)
B、聚类问题(Clustering)
C、分类问题(Classification)
D、数据降维(Dimensionality Reduction)

8、_________属于神经网络常用的激活函数。
A、tanh
B、Softmax
C、Sigmoid
D、ReLU

9、神经网络可用于_________等问题的建模分析。
A、识别车牌
B、根据房屋特性预测房价
C、客户聚类问题
D、识别垃圾短信

10、回归分析中,性能评价指标均方根误差RMSE与测试集的大小无关。

11、Precision(精确率)指分类问题中真实正例被正确预测出的比例。

12、同一个数据集上,通常使用随机森林的方法训练分类模型需要的时间比C4.5决策树更长。

13、K-means算法迭代过程同时最小化簇内凝聚度和最大化簇间分离度。

14、神经网络中每层中不同的结点通常采用不同的激活函数。

15、深度学习就是具有很多个隐藏层、每个隐藏层具有很多结点的神经网络。

第5章单元作业

1、葡萄酒数据集(wine.data)搜集了法国不同产区葡萄酒的化学指标。试建立决策树、SVM和神经网络3种分类器模型,比较各种分类器在此数据集上的效果。 【提示】:每种分类器,需要对参数进行尝试,找出此种分类算法的较优模型,再与其他分类器性能进行比较。

第6章文本数据分析

6.1文本处理概述随堂测验

1、识别文本中包含的情感通常使用________方法处理。
A、文本摘要
B、文本分类
C、机器翻译
D、文本检索

2、中文分词的作用是________。
A、将中文句子划分为以词为单位的词序列
B、将文本转换为数字向量
C、从文本中抽取与主题有关的词语
D、去掉文本中与主题无关的句子

6.2中文文本处理随堂测验

1、词袋模型的主要缺点是________。
A、只使用主题词表示文本,漏掉其他词语信息
B、只使用文本中关键句子表示整段文本信息
C、只考虑文本中的词信息,忽略了词序、语法以及句法信息
D、将句子表示为等长的数字向量,无法反映句子长度

2、在文本处理常见任务类中,垃圾邮件自动处理应归类于________。
A、自动摘要
B、信息检索
C、信息抽取
D、文本分类

6.3实例:垃圾邮件识别随堂测验

1、基于词袋模型进行文本数据分类时,从句子中提取的最重要的特征量为________。
A、上下文
B、词位置
C、词性
D、词频

2、分词工具库Jieba支持________分词模式。
A、半模式
B、全模式
C、搜索引擎模式
D、精确模式

测验6 文本数据分析

1、词袋模型,将不同长度的文本表示成不同长度的向量。

2、对文本分类,提取的文本特征个数越多,特征向量越长,则分类准确度就越高。

3、垃圾邮件分类,训练集中每个邮件的标签:1(垃圾)或0(正常),是由人工标注的。

4、文本处理中, ________任务将一种自然语言文本自动翻译成另一种自然语言文本。

作业6 文本数据分析

1、1.将邮件特征提取从词袋模型改为TF-IDF模型,比较使用不同的特征计算模型的分类性能。(朴素贝叶斯模型)

第7章深度学习实现图像分类

7.1数字图像概述随堂测验

1、计算机数字图像,按照颜色和灰度的多少将图像分为________。
A、二值图像、灰度图像、RGB彩色图像
B、静态图像、运动图像
C、4K图像、高清度图像、低清晰度图像
D、JPG图像、TIFF图像、BMP图像

2、Python在内存中使用________来存储图像的数据。
A、字典
B、多维数组
C、表结构(DataFrame)
D、列表

3、数字图像识别采用________建模分析方法实现。
A、分类
B、无监督学习
C、聚类
D、回归

4、一个4096 * 2160的RGB24数字图像,需要占用存储空间约为________。
A、25.3MB
B、1.6GB
C、7.2MB
D、100MB

5、图片“Robot.jpg”为400 *372(宽*高)的彩色图片,下列Python语句输出为________。 from skimage import io print(io.imread("robot.jpg",1).shape)
A、(372,400,3)
B、(400,272)
C、(372,400)
D、(400,372,3)

第7章单元测验

1、关于Keras的说法中,________是正确的。
A、Keras可以作为Tensorflow的后端使用
B、Keras是专门用来构建CNN序贯模型的神经网络开发包,不能构建其它神经网络
C、与Tensorflow一样,Keras是一个多层神经网络开发包,只是它的语法更简单、使用更方便
D、使用Keras构建的神经网络模型必须经过编译(Compile)之后,才能输入数据进行训练

2、________都是著名的图像分类深度学习模型,用户可以下载这些预训练模型直接使用。
A、InceptionV3
B、VGG19
C、CIFAR-10
D、ResNet50

3、与全连接前馈神经网络相比,用于图像分类的卷积神经网络CNN主要通过________操作来减少网络参数数量,提高训练效率。
A、卷积
B、全连接
C、池化
D、中断

4、Keras为建立CNN模型,提供了_______等常用层(layer)。
A、SimpleRNN
B、Conv2D
C、LSTM
D、MaxPooling2D

5、卷积神经网络的核心是通过卷积块自动提取图像的局部______。

第7章单元作业

1、尝试基于身份证照片创建班级同学的人脸库,使用已有的人脸识别,人脸对比API(如http://ai.baidu.com/tech/face)实现上课自动点名的功能。

课程大作业

作业提交

1、按照模板完成数据分析报告!

学习通PYTHON数据分析基础_1

Python是一种高级编程语言,它被广泛应用于数据分析和科学计算,尤其是在机器学习和人工智能领域。Python的优点在于它易于学习、易于使用,并且可以快速开发出高质量的代码。在本课程中,我们将学习Python数据分析的基础知识。

本课程的目标

本课程的目标是帮助学习者了解Python数据分析的基本知识,包括Python的基本语法、Python数据结构、NumPy库、Pandas库、Matplotlib库等。通过本课程,学习者可以:

  • 了解Python的基本语法
  • 了解Python数据结构的使用方法
  • 学习NumPy库的基本用法
  • 学习Pandas库的基本用法
  • 学习Matplotlib库的基本用法

Python基础语法

Python是一种解释型的编程语言,代码可以一行一行地执行。Python程序的结构是由代码块组成的,代码块是通过缩进来表示的,而不是通过花括号来表示的。以下是一些基本的Python语法:

()   < :    ():    ()

以上代码示例中,print语句用于输出一行字符串,if语句用于判断一个数是否小于10,并根据结果输出不同的字符串。

Python数据结构

Python支持多种数据结构,包括列表、元组、字典、集合等。以下是一些基本的Python数据结构:

列表

列表是Python中最常用的数据结构之一。列表是一个有序的集合,可以通过下标来访问其中的元素。以下是一些基本的列表操作:

= [].().().()([]) ([:]) 

元组

元组是Python中另一种有序的集合,和列表类似,可以通过下标来访问其中的元素。但是,元组一旦创建就不能修改,因此它更适合用于保存一些不会变化的数据。以下是一些基本的元组操作:

= (, , )([]) [] =  

字典

字典是Python中另一种常用的数据结构,它可以用于存储键值对。以下是一些基本的字典操作:

= { : , : , : }([]) [] =  []

集合

集合是Python中的一种数据结构,它是由若干个互不相同的元素组成的无序集合。以下是一些基本的集合操作:

= { , , }.().()

NumPy库

NumPy是Python中的一个科学计算库,它提供了一些常用的数学函数和数据类型,特别是对于多维数组的处理有很好的支持。以下是一些基本的NumPy操作:

数组

NumPy中的数组是多维数组,也称为ndarray(n-dimensional array)。以下是创建和访问数组的方法:

= .([, , ])([])  = .([[, , ], [, , ]])([][]) 

数组操作

NumPy提供了很多对数组进行操作的函数,包括数组的加、减、乘、除、矩阵乘法、转置等。以下是一些常用的数组操作:

= .([, , ]) = .([, , ])( + )  = .([, , ]) = .([, , ])( * )  = .([[, ], [, ]]) = .([[, ], [, ]])(.(, )) 

Pandas库

Pandas是Python中的一个数据处理库,它提供了很多对于数据的操作函数,包括数据的读取、修改、查询等。以下是一些基本的Pandas操作:

读取数据

Pandas可以读取多种格式的数据文件,包括CSV、Excel、SQL等。以下是一些基本的读取数据的方法:

= .() = .() = .(, )

修改数据

Pandas可以对数据进行修改,包括添加、删除、修改、合并等操作。以下是一些基本的修改数据的方法:

[] = [, , , ] = .(, =)[] = [].() = .(, , =)

查询数据

Pandas可以对数据进行查询,包括选择、过滤、排序、分组等操作。以下是一些基本的查询数据的方法:

= [] = [[] == ] = .() = .()

Matplotlib库

Matplotlib是Python中的一个绘图库,它可以用于绘制各种类型的图表,包括线图、散点图、柱状图、饼图等。以下是一些基本的Matplotlib操作:

中国大学PYTHON数据分析基础_1

Python是一种高级编程语言,近年来在数据分析领域非常流行。Python提供了一系列的库(Library),这些库能够帮助我们处理数据、可视化数据、进行机器学习等。Python的强大功能和广泛的应用让它成为了数据分析领域最常用的编程语言之一。

Python数据类型和运算符

Python中的数据类型和其他编程语言类似,包括整型、浮点型、布尔型、字符串、列表、元组、集合和字典。Python内置了丰富的运算符,包括算术运算符、比较运算符、逻辑运算符等。下面是一些常用的数据类型和运算符:

  • 整型:表示整数,如1、2、3等。
  • 浮点型:表示小数,如3.14、1.23等。
  • 布尔型:表示真或假,只有两个值True和False。
  • 字符串:表示一串字符,如\Hello World\。
  • 列表:表示一组有序的元素,如[1, 2, 3]。
  • 元组:表示一组有序的元素,但是不可修改,如(1, 2, 3)。
  • 集合:表示一组互不相同的元素,如{ 1, 2, 3}。
  • 字典:表示一组键值对,如{ \name\ \Tom\ \age\ 18}。

Python的运算符包括算术运算符(加、减、乘、除等)、比较运算符(大于、小于、等于等)、逻辑运算符(and、or、not等)。

Python条件语句

在Python中,条件语句用于根据不同的条件选择不同的代码执行路径。Python中的条件语句包括if语句、elif语句和else语句。

if语句用于检查一个条件是否为真,如果为真执行一段代码,否则执行另外一段代码。下面是一个例子:

x = 5if x >0:  print(\x is positive\else:  print(\x is not positive\

在这个例子中,我们定义了一个变量x,然后使用if语句检查它是否大于0。如果x大于0,打印出\ is positive\,否则打印出\ is not positive\。

elif语句用于检查多个条件,如果前面的条件不成立,继续检查下一个条件。下面是一个例子:

x = 5if x >0:  print(\x is positive\elif x < 0:  print(\x is negative\else:  print(\x is zero\

在这个例子中,我们定义了一个变量x,然后使用if语句检查它是否大于0。如果x大于0,打印出\ is positive\。如果x小于0,打印出\ is negative\。否则打印出\ is zero\。

Python循环

在Python中,循环用于多次执行一段代码,直到满足退出条件。Python中的循环包括for循环和while循环。

for循环用于遍历一组数据,每次循环取出一个数据进行处理。下面是一个例子:

fruits = [\apple\ \banana\ \orange\for fruit in fruits:  print(fruit)

在这个例子中,我们定义了一个列表fruits,然后使用for循环遍历它的每个元素,将每个元素打印出来。

while循环用于根据一个条件多次执行一段代码,直到条件不成立。下面是一个例子:

i = 0while i < 5:  print(i)  i += 1

在这个例子中,我们定义了一个变量i,初始值为0。然后使用while循环,只要i小于5,就执行循环内的代码,每次打印出i并且将i加1。

Python函数

在Python中,函数用于封装一段代码,可以重复利用。Python中的函数使用def关键字定义,可以接受参数,可以有返回值。下面是一个例子:

def add(x, y):  return x + yresult = add(2, 3)print(result)

在这个例子中,我们定义了一个函数add,它接受两个参数x和y,将它们相加并返回结果。然后我们调用这个函数,将结果打印出来。

Python库

Python中有很多常用的库,可以帮助我们处理数据、可视化数据、进行机器学习等。其中最常用的库包括:

  • Numpy:用于高性能数值计算。
  • Pandas:用于数据处理和分析。
  • Matplotlib:用于数据可视化。
  • Scikit-learn:用于机器学习和数据挖掘。

下面是一个例子,演示如何使用Pandas库读取一个CSV文件:

import pandas as pddf = pd.read_csv(\data.csv\print(df.head())

在这个例子中,我们导入了Pandas库,并使用read_csv函数读取一个名为data.csv的CSV文件。然后使用head函数打印出数据框的前几行。

总结

Python作为一种高级编程语言,在数据分析领域有着广泛的应用。Python提供了丰富的数据类型和运算符,以及条件语句、循环和函数等基本编程结构。此外,Python还提供了很多常用的库,可以帮助我们处理数据、可视化数据、进行机器学习等。通过学习Python的基础知识和常用库,可以提高数据分析的效率和准确性。



Ɣ回顶部