0.0582

五煦查题

快速找到你需要的那道考题与答案

尔雅数据采集课后答案(学习通2023题目答案)

95 min read

尔雅数据采集课后答案(学习通2023题目答案)

【第〇周】网络爬虫之前奏

基础知识

1、尔雅关于Python程序格式框架的数据描述,以下选项中错误的采集是()
A、Python语言不采用严格的课后“缩进”来表明程序的格式框架
B、Python单层缩进代码属于之前最邻近的答案一行非缩进代码,多层缩进代码根据缩进关系决定所属范围
C、学习Python语言的通题缩进可能采用Tab键实现
D、判断、目答循环、尔雅函数等语法形式能够通过缩包含一批Python代码,数据进而表达对应的采集语义

2、IDLE环境的课后退同命令是
A、exit()
B、答案回车键
C、学习close()
D、通题esc()

3、以下选项说法不正确的是()
A、解释是将源代码逐条转换成目标代码同时逐条运行目标代码的过程
B、编译是将源代码转换成目标代码的过程
C、C语言是静态语言,python语言是脚本语言
D、静态语言采用解释方式执行,脚本语言采用编译方式执行

4、以下关于Python语言中“缩进”说法正确的是:
A、缩进是程序中长度统一且强制使用
B、缩进是非强制的,仅为了提高代码可读性
C、缩进可以用在任何语句之后,表示语句间的包含关系
D、缩进统一为四个空格

5、以下不属于IPO模型的是:
A、Process
B、Input
C、Program
D、Output

6、字符串是一个字符序列,给字符串S,以下表示S从右侧向左第三个字符的是:
A、S[3]
B、S[-3]
C、S[:-3]
D、S[0:-3]

7、以下不是Python数据类型的是:
A、整数
B、字符串
C、列表
D、实数

8、利用print()格式化输出,哪个选项用于控制浮点数的小数点后两位输出?
A、{ .2}
B、{ :.2}
C、{ .2f}
D、{ :.2f}

9、下列不属于Python保留字的是:
A、elif
B、type
C、import
D、def

10、在Python中,用于获取用户输入的函数是
A、eval()
B、input()
C、print()
D、get()

学习通数据采集

学习通是中国大陆备受欢迎的在线教育平台,拥有各类高质量的课程资源和学习工具。对于一些教育机构和个人,他们希望能够通过学习通的数据采集来分析和使用平台的数据。本文将介绍学习通数据采集的相关知识和技术。

1. 学习通数据的种类

学习通平台提供了多种类型的数据,包括但不限于:

  • 课程信息,如名称、简介、分类、标签等。
  • 学习资源,如视频、音频、文本等。
  • 学员信息,如姓名、头像、学号等。
  • 学习记录,如观看时间、完成进度、得分等。

这些数据可以反映出学习通平台的使用情况,为教育机构和个人提供有益的信息。

2. 学习通数据采集的方法

学习通平台采用了防盗链和反爬虫的技术,使得数据采集不易。但是,我们可以通过以下方法来采集数据。

2.1 使用API接口

学习通平台提供了API接口,可以通过对接口的调用来获取数据。但是,需要注意的是,学习通API是有限制的,需要有认证和授权。此外,API返回的数据有一定的限制,比如一次只能返回100条记录。

2.2 使用爬虫技术

学习通平台的数据采集可以通过爬虫技术来实现。爬虫技术是指通过程序从互联网上自动拉取数据,并进行处理和分析。实现学习通数据采集的爬虫,需要考虑以下几个问题。

2.2.1 网络请求

通过网络请求,爬虫程序可以向学习通服务器发送请求,并获取返回的数据。但是,学习通采用了防盗链和反爬虫的技术,需要模仿真实的用户请求,避免被学习通识别为爬虫。

2.2.2 HTML解析

学习通平台的数据采集需要对HTML进行解析,提取数据。可以使用一些常见的解析库,比如Beautiful Soup和pyquery。

2.2.3 数据存储

爬虫程序获取到的数据需要进行存储。可以使用一些常见的数据库,比如MySQL、MongoDB等。

3. 数据采集案例

下面以采集学习通平台上的“Python语言程序设计”课程为例,介绍数据采集的具体步骤。

3.1 获取课程信息

首先,我们需要获取课程的信息,包括名称、简介、分类、标签等。可以使用API接口,或者通过爬虫技术来获取。

<!-- 调用学习通API接口,获取课程信息 -->import requestsurl = \https://www.xuexi.cn/api/course/getCourseListByCategory.htm?requestType=1&category=02&size=100&page=1\headers = {     \User-Agent\ \Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\}response = requests.get(url, headers=headers)data = response.json()[\result\result\list\# 打印课程信息for item in data:    print(item[\name\ item[\introduction\ item[\categoryName\ item[\tags\)

3.2 获取学习资源

接下来,我们需要获取课程的学习资源,包括视频、音频、文本等。可以使用爬虫技术,通过模拟用户请求来获取资源。

<!-- 使用爬虫技术,获取课程学习资源 -->import requestsfrom pyquery import PyQuery as pqurl = \https://www.xuexi.cn/1ea6c1cbf5e1d94e925f9f228ec6d9e8/5cfbd8f3b23d3bf3d7b95c92d0502ae0.html\headers = {     \User-Agent\ \Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\}response = requests.get(url, headers=headers)doc = pq(response.text)video_url = doc(\video\attr(\src\audio_url = doc(\audio\attr(\src\text = doc(\article-content\text()# 打印学习资源print(video_url)print(audio_url)print(text)

3.3 获取学员信息和学习记录

最后,我们需要获取学员的信息和学习记录,包括姓名、头像、学号、观看时间、得分等。可以使用API接口,或者通过爬虫技术来获取。

<!-- 调用学习通API接口,获取学员信息和学习记录 -->import requestsurl = \https://www.xuexi.cn/1ea6c1cbf5e1d94e925f9f228ec6d9e8/data.json\headers = {     \User-Agent\ \Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3\}response = requests.get(url, headers=headers)data = response.json()[\result\data\result\userLearningDetail\# 打印学员信息和学习记录for item in data:    print(item[\name\ item[\photoUrl\ item[\learnTime\ item[\score\)

4. 总结

学习通数据采集是一项有意义的工作,可以帮助教育机构和个人分析学习通平台的数据,提高教育质量。本文介绍了学习通数据的种类、采集方法和案例,希望对读者有所帮助。