0.0723

五煦查题

快速找到你需要的那道考题与答案

超星数据库系统概论(新技术篇)_1期末答案(学习通2023课后作业答案)

76 min read

超星数据库系统概论(新技术篇)_1期末答案(学习通2023课后作业答案)

第2讲 内存数据库(续)

内存数据库

1、超星主存数据库的数据主要特征不包括
A、内存作为主存储设备
B、库系课后磁盘作为后备持久化存储设备
C、统概将数据库的论新缓冲区扩大到能够容纳全部数据
D、面向内存访问优化设计存储结构与查询处理实现技术

2、技术下面对内存数据库向量查询处理技术描述正确的篇期是
A、一次处理一列,末答提高内存访问效率
B、案学通过动态编译技术生成高效的习通机器码执行查询
C、通过SIMD指令实现一次处理多个数据
D、作业以适合L1 cache的答案优化的向量长度为单位迭代记录处理,减少内存物化代价

3、超星NVM非易失性内存将优化事务处理哪方面的数据特性
A、原子性
B、库系课后一致性
C、隔离性
D、持久性

4、内存数据库的主要优化技术包括
A、面向cache的存储访问优化及查询处理优化技术
B、面向SIMD的查询处理优化技术
C、面向新型GPU、Phi、FPGA等众核处理的高并行查询处理技术
D、I/O访问优化技术

5、代表性的内存OLTP数据库包括
A、VoltDB
B、IBM BLU
C、Oracle Timesten
D、Vectorwise

6、代表性的内存OLAP数据库包括
A、IBM SolidDB
B、MonetDB
C、SQL Server Hekaton
D、Vectorwise

7、哪些硬件加速器可以用于加速内存数据库查询查询处理
A、Xeon Phi
B、GPU
C、PCIe Flash
D、FPGA

第3讲 数据库一体机

数据库一体机

1、在大部分应用场景下,软件系统最明显的性能瓶颈是由______带来的。
A、计算环节
B、数据迁移环节
C、人机交互环节
D、各个环节

2、我们使用相同容量的非易失内存(NVM)替代易失内存,那么用NVM存储______可以达到提高数据库性能的效果。
A、表数据
B、索引
C、数据字典
D、日志

3、Oracle的Exadata系统使用了哪些新硬件提升系统性能?
A、SSD/Flash
B、新型处理器
C、Infiniband网络
D、GPU

4、提高数据库吞吐率的方法未必能提高数据库的响应时间。

第4讲 数据仓库与OLAP关键技术

数据仓库与OLAP关键技术

1、可以对数据仓库数据执行的操作
A、INSERT
B、UPDATE
C、DELETE
D、上述所有操作

2、多维数据模型的实现方式有
A、星型模式
B、雪片模式
C、事实群模式
D、基于多维数组

3、属于多维分析操作的有
A、切片/切块
B、上卷
C、下钻
D、旋转

4、对多维数据模型实现方式描述正确的是
A、关系存储适应性、伸缩性和扩展性好
B、关系存储访问速度比多维数组存储快
C、多维数组不同维的访问效率差别很大
D、关系存储存在稀疏数据的问题

5、实体化视图技术涉及
A、实体化视图选择
B、实体化视图维护
C、利用实体化视图回答查询
D、以上所有选项

6、精简数据方体技术有
A、Dwarf Cube
B、Condensed Cube
C、Quotient Cube
D、QC-Tree

第5讲 新一代OLAP分析

新一代OLAP分析

1、对内存OLAP与磁盘OLAP描述正确的
A、内存OLAP可以解决磁盘OLAP中CUBE存储的稀疏数据问题
B、内存OLAP支持实时数据的分析、支持维成员更新
C、磁盘OLAP的缓冲区采用的数据存储结构是面向磁盘的数据结构
D、内存OLAP算法是面向内存的

2、任务划分是实现线程级并行的重要手段。能够确保线程之间负载平衡的策略有
A、流水线划分
B、线程协作调度
C、多粒度自适应任务调度
D、多请求执行

3、解决内存访问延迟技术之一是带宽优化,下面属于带宽优化的方法有
A、设计更小的数据结构和压缩技术
B、Cache的缓冲区机制
C、多线程间共享扫描
D、即时计算代替数据存储

4、协处理器产品有
A、Phi
B、GPU
C、SSD
D、Flash Memory

5、实时数据仓库技术有
A、实时数据加载
B、外部实时数据缓存
C、准时制信息归并
D、反向准时制信息归并

第6讲 数据挖掘

数据挖掘

1、在数据挖掘的过程中,将源数据转变为目标数据的操作步骤是
A、数据采集
B、数据预处理
C、数据挖掘
D、解释评价

2、下列关于数据挖掘特点的叙述中,不正确的是
A、数据源收集要依照数据分析而定
B、处理的数据必须是海量的
C、查询是由决策制定者提出的
D、挖掘出来的知识一般不能预知

3、多数基于划分方法的聚类方法是根据____进行聚类的
A、对象的个数
B、对象之间的距离
C、临近区域内对象的数目
D、一定范围内数据点的密度

4、分类,主要是对____的数据进行预测。
A、离散的
B、连续的
C、有序的
D、相似的

5、考虑下面的频繁3-项集的集合:{ 1,2,3},{ 1,2,4},{ 1,2,5},{ 1,3,4},{ 1,3,5},{ 2,3,4},{ 2,3,5},{ 3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、选项补丁(不要选择该选项)

6、考虑下面的频繁3-项集的集合:{ 1,2,3},{ 1,2,4},{ 1,2,5},{ 1,3,4},{ 1,3,5},{ 2,3,4},{ 2,3,5},{ 3,4,5}假定数据集中只有5个项,1->2的规则中置信度为
A、60%
B、80%
C、90%
D、100%

7、下列关于数据挖掘功能的方法中,属于模式挖掘的为
A、描述建模
B、频繁模式
C、异常模式
D、预测建模

8、下列关于数据挖掘分类的方式中,正确的为
A、根据挖掘的数据库类型分类
B、根据挖掘的过程分类
C、根据挖掘的知识类型分类
D、根据挖掘的应用领域分类

9、聚类可以应用于
A、模式识别
B、图像处理
C、空间数据分析
D、其他算法的预处理

10、高质量的聚类,是指_
A、类中的对象高度相似
B、类中的对象高度不相似
C、类间的对象高度相似
D、类间的对象高度不相似

11、分类模型一般可以表示为
A、分类规则
B、决策树
C、数学公式
D、正则表达式

12、常见的分类方法有
A、决策树
B、朴素贝叶斯
C、K-Means
D、神经网络

13、下面说法正确的是
A、支持度揭示了A与B同时出现的概率
B、置信度揭示了A出现时,B是否也会出现或有多大概率出现
C、支持度:support(A=>B)=P(A∩B)
D、可信度:confidence (A=>B ) = P(B|A)

14、度量数据挖掘产生的模式的主观评价指的是基于模式的统计或者结构进行分析, 如支持度、可信度等。

15、好的聚类方法能够发现任意形状的聚类。

16、基于密度的聚类方法有局限性,只能发现凸状的簇。

17、决策树的树越矮,分类效果越好。

18、使用信息增益作为树根选择的方法时,信息增益最大的属性是最好的树根。

19、如果一个项目集S是频繁的(项目集S的出现频度大于最小支持度s),那么S的任意子集也是频繁的。

20、频繁项目集就是满足最小支持度的项目集。

第7讲 数据库安全性新技术

数据库安全性新技术

1、通过数据加密实行的数据库安全策略中,安全强度最高的粒度是
A、数据库级加密
B、记录级加密
C、字段级加密
D、数据项级加密

2、备份操作是将数据库中的数据复制到其他存储介质上的过程,目的是为了防止系统出现操作失误或系统故 障导致数据丢失,在备份操作中,_________是指按备份周期对整个系统所有的数据进行备份,而___________ 则是每次仅备份相比于上一次备份后修改过的内容,____________是指每次进备份相比于上一次全备份后修 改过的内容。
A、全备份; 增量备份; 差分备份
B、增量备份; 全备份; 差分备份
C、差分备份; 全备份; 增量备份
D、增量备份; 差分备份; 全备份

3、在加密细粒度访问控制体系架构中,云存储服务提供商具有的特点是
A、安全且可信;
B、诚实且可信;
C、诚实不可信;
D、恶意不可信;

4、使用密文属性x对信息进行加密,用户私钥与密钥属性y关联,仅当密钥属性x与密文属性y满足谓 词关系P(x, y)=1时,数据才可被解密的方法,属于加密数据细粒度访问控制中的()
A、函数加密;
B、同态加密;
C、属性加密;
D、谓词加密;

5、针对传统的数据脱敏发布方法,攻击者总是能够在已知用户个人信息的情况下从发布的数据表中推测出敏感信息的根本原因是
A、攻击者可以解密数据库;
B、攻击者拥有更高的权限;
C、现实世界中的数据存在关联性;
D、数据发布的平台不够安全;

6、在大数据分析中,涉及到统计型数据的发布,保护统计数据发布隐私的核心技术是
A、K-匿名;
B、L-多样性;
C、T-接近;
D、差分隐私;

7、云平台提供的大数据存储与计算服务所具有的特点有
A、按需请求存储与计算资源
B、节省数据存储与处理成本
C、无需专业存储与处理能力
D、随时随地获取与处理数据

8、随着云技术的发展,云数据存储平台面临的安全与隐私风险包括
A、云中存储的海量用户敏感数据泄露;
B、中小型企业委托云平台存储和处理商业信息泄露;
C、境外势力通过数据分析和挖掘技术推测出国家战略情报;
D、云平台可能负载过大;

9、为了保证数据库中的数据真实有效,需要防止非法用户试图对数据库进行破坏,并且需要能够能够对已经损坏的数据库进行及时的修复,常用的办法有
A、身份识别;
B、数据加密;
C、审计检测;
D、数据备份;

10、函数加密是指允许在用户密钥中指定一个函数F,解密数据x的加密结果可得到F(x),这种方式具有的特点有
A、非常适合云计算;
B、目前的构造方法非常复杂;
C、仍处于研究阶段;
D、加密过程具有随机性;

11、下列关于云服务中加密数据查询体系架构涉及的加密算法说法正确的是
A、保序加密能够在不解密数据的条件下判断数据的大小关系;
B、同态加密能够在不解密数据的条件下直接对加密结果进行代数操作;
C、可搜索加密能够在不解密数据的条件下直接对加密结果进行关键字或范围搜索;
D、可搜索加密可以综合使用多种加密算法共同实现;

12、在云平台上的隐私数据保护发布中常用的技术有
A、K-匿名;
B、L-多样性;
C、T-接近;
D、加密发布;

13、关于统计数据发布,下列说法正确的是
A、统计数据库允许查询聚集类型的信息;
B、统计数据库允许查询单个记录的信息;
C、无法从合法的查询中推导出不合法的信息;
D、合法的查询中存在着隐蔽的信息通道;

14、为了使统计数据的发布不泄露不合法的信息,可以采取的操作有
A、规定任何查询涉及的记录数必须多于某个数量;
B、规定任意两个查询的相交数据项必须低于某个数量;
C、将统计数据库进行加密处理;
D、规定任一用户的查询次数不能超过某个数量;

15、在加密数据查询体系结构中,数据处理方可以先解密数据再对其进行处理。

第8讲 开源数据库系统

开源数据库系统

1、目前的开源数据库种类繁多,对于拟构建TPC-C类业务系统的开发上而言,选择开源系统_______比较合适。
A、HBase;
B、SQLLite;
C、PostgreSQL;
D、Neo4j;

2、开源数据库PostgreSQL支持C/S架构的软件系统开发,能够响应客户端连接请求的后台进程是
A、autovaccum;
B、postmaster;
C、syslogger;
D、pgstat;

3、PostgreSQL的设计充分考虑了系统的可扩展性,如果你想在系统中支持在SSD上存储数据,可以通过改进______模块来进一步提高相应的存储访问性能。
A、access;
B、executor;
C、smgr;
D、utils;

4、在很多小型项目中倾向于选用开源数据库系统的原因有
A、成本低;
B、安全性高;
C、入门容易;
D、升级快;

5、现代数据库系统都面临新硬件所带来的机遇和挑战。针对多核硬件环境,可以考虑从_______等多个方面来优化性能。
A、缓存线对齐;
B、冲突分区扩展;
C、memory barrier同步机制;
D、SQL缓存;

第10讲 大数据思维和方法

大数据思维和方法

1、大数据4V属性中的Veracity(真伪难辨)主要是在大数据管理生命周期的哪个步骤处理?
A、数据感知和获取
B、数据预处理
C、数据组织、存储和处理
D、数据分析

2、大数据方法主要是充分利用了计算机的什么能力?
A、计算
B、输入输出
C、存储
D、通信

3、大数据的含义主要是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

第11讲 大数据处理平台Hadoop&Spark及其生态系统

大数据处理平台Hadoop&Spark及其生态系统

1、在Hadoop平台上,对应Google三大技术Google File System(GFS)、MapReduce、BigTable的模块分别是
A、HDFS/MapReduce/Hive
B、HDFS/MapReduce/HBase
C、HDFS/MapReduce/Zookeeper
D、HDFS/MapReduce/Scoop

2、Hadoop2.0相对于Hadoop1.0有什么改进
A、把Resource manager和Application Master分开
B、把Resource Manager和Application Scheduler两个功能分开
C、把Resource manager和Node Manager分开
D、选项补丁(请不要选择该选项)

3、Hive on Tez用什么来表达数据处理任务
A、Directed Acyclic Graph
B、MapReduce
C、Oozie Workflow
D、Scoop Job

4、HDFS的节点分为两类,分别是
A、Task Tracker
B、Name Node
C、Job Tracker
D、Data Node

5、如下属于Spark的主要组件的有
A、SparkSQL
B、MLLib
C、Hive
D、GraphX

6、RDD的操作有哪些
A、Transformatio
B、Accumulator
C、Action
D、Broadcast

7、如下属于宽依赖的有
A、Map
B、group by
C、filter
D、sort

第12讲 SQL on Hadoop Systems

SQL on Hadoop Systems

1、Presto的操作符之间如何传递数据
A、HBase
B、HDFS
C、流水线
D、进程间通讯

2、VectorH的查询处理模式是
A、tuple at a time
B、block at a time
C、vector at a tim
D、column at a tim

3、SQL on Hadoop系统分为哪几类
A、Connector to Hadoop
B、SQL to Hadoop(Acoop)
C、SQL and Hadoop
D、SQL on Hadoop

4、列存储的优势有
A、减少I/O
B、减少计算时间
C、有利于加密
D、有利于压缩

5、Hadoop平台上的列存储有哪些
A、AVro
B、RCFile
C、ORC
D、Parquet

第13讲 KEY-VALUE数据库

KEY-VALUE数据库

1、HBase中用于减少磁盘访问的索引结构LSM的含义是
A、日志结构合并树
B、二叉树
C、平衡二叉树
D、长平衡二叉树

2、HBse中HFile数据格式中的Data字段用于
A、存储数据的起点
B、存储实际的KeyValue数据
C、指定字段的长度
D、存储数据块的起点

3、HBase是以下哪种技术的开源实现
A、Dremel
B、MapReduce
C、Pregel
D、BigTable

4、HBase表中每个cell的多版本是通过什么表示的
A、blockid
B、rowkey
C、timestamp
D、Cellid

第14讲 流数据分析与处理

流数据分析与处理

1、下列属于流数据处理系统是
A、Telegraph
B、Spark Streaming
C、Storm
D、Hive

2、Spark Streaming比较适合下列哪类应用
A、连续统计一段时间内传感器采集的平均值
B、处理视频摄像头传来的图片
C、金融交易中强实时的欺诈行为识别
D、Twitter文本的流水线式处理

3、下列哪些算法不太合适在流数据环境下执行
A、计算直方图
B、连接操作
C、奇异点检测
D、PageRank算法

4、流数据分析时间窗口的常见划分方法有
A、间隔时间窗口
B、滑动时间窗口
C、非重叠式切片时间窗口
D、随机采样时间窗口

第15讲 MongoDB文档数据库

MongoDB文档数据库

1、MongoDB属于
A、列存储数据库;
B、键值存储数据库;
C、图数据库;
D、文档数据库;

2、MongoDB查询语句:db.courses.find({ teachers:完成的功能是
A、查找由“窦志成”和“文继荣”二位老师一起教授的课程;
B、查找“窦志成”或者“文继荣”老师教授的课程;
C、查找“窦志成”和“文继荣”一起教授的课程,但授课老师还可以有其他老师;
D、选项补丁(请不要选择该选项)

3、关于MongoDB的描述正确的有
A、MongoDB是无模式的;
B、MongoDB是面向文档的;
C、MongoDB具有高扩展性和伸缩性;
D、MongoDB存储的是JSON文档,不支持对文档中的内容进行索引;

第16讲 图数据库

图数据库

1、下列哪个不是图数据管理面临的挑战
A、图数据结构的复杂性
B、图查询类型的多样性
C、图模型表达的直观性
D、图计算的复杂性

2、下列哪个不属于图的典型操作
A、可达性查询
B、笛卡尔积
C、聚类
D、最短路径查询

3、下列哪个不是图数据库(Neo4j)与关系数据库性能差别的影响因素
A、采用节点、关系等的独立存储
B、采用免索引邻接来实现图模型
C、各个元素定长存储
D、对元素创建索引

4、BSP模型中,哪一个不是一个超步所包含的步骤
A、故障恢复
B、局部计算
C、通信
D、屏障同步

5、以下哪个不是BSP模型的特点
A、以图顶点位计算中心
B、消除了数据的重复加载
C、解决了木桶效应
D、以消息为驱动的编程模型

第17讲 大数据近似算法

大数据近似算法

1、水塘采样算法扫描数据
A、1遍
B、2遍
C、3遍
D、4遍

2、多数问题(Majority)的最优空间复杂度是
A、0(1)
B、O(n)
C、O(n^2)
D、O(n^1.5)

3、布隆过滤器会出现哪种误差
A、False positive
B、False negative
C、两种误差都有
D、不出现误差

4、Misra-Gries算法的误差的上界是
A、单个元素出现次数
B、所有元素出现次数的平均值
C、算法执行减一操作的次数
D、以上都不对

5、以下四个说法哪几个是不正确
A、Misra-Gries摘要无法合并
B、从大小为n的数据中获取大小为k水塘采样,只需证明每个元素被选取的概率为k/n
C、扫描数据两遍可以解决多数问题(Majority)
D、布隆过滤器的误差随哈希函数个数k的增加而一直下降

第18讲 大数据与机器学习

大数据与机器学习

1、下面哪个关于深度学习的说法是不正确的
A、深度学习是机器学习的分支之一;
B、深度学习是无所不能的;
C、深度学习是一种多层非线性映射;
D、深度学习属于人工智能的范畴;

2、下面哪个关于大数据机器学习的说法是不正确的?
A、大数据可能存在偏差,机器学习的结果不好;
B、大数据虽很大,但是总存在例外的情况;
C、大数据机器学习可以满足所有行业的需求;
D、大数据机器学习的代价过大;

3、下面哪些任务属于监督学习?
A、分类;
B、密度估计;
C、回归;
D、聚类;

4、下面哪些机器学习模型属于混合模型?
A、SVM;
B、Random Forest;
C、Adaboost;
D、HMM;

5、机器学习对大数据应用的贡献体现在哪些方面?
A、促进数据科学家们的多产性;
B、发现一些被忽视的方案;
C、挖掘一劳永逸的潜在规律;
D、打破行业领域的门槛限制;

6、大数据给机器学习带来了哪些挑战?
A、数据源多样化;
B、数据量非常大;
C、数据分布会发生变化;
D、数据质量不高;

7、大数据机器学习的关键技术有哪些?
A、深度学习;
B、在线学习;
C、并行计算;
D、近似近邻搜索;

第19讲 社交网络大数据分析

社交网络大数据分析

1、相比英文文本数据,中文文本数据处理需要的一个特殊步骤是
A、去停用词;
B、去高频词;
C、分词;
D、去低频次;

2、以下关于PageRank算法的说法,哪个是正确的
A、入链多的页面肯定比入链少的页面分数高;
B、每个节点的分数只需要考虑邻居节点的分数进行计算;
C、计算过程实际上是递归进行的;
D、分数值可能有正有负;

3、网络表示(Network Embedding)模型是受到以下哪种模型的启发而来
A、PageRank;
B、SVD;
C、word2vec;
D、LDA;

4、关于推荐算法,以下哪些选项是正确的
A、传统基于协同过滤的方法效果不好;
B、基于深度学习的推荐算法目前是应用主流;
C、矩阵分解技术是一种常用的方法;
D、数据稀疏对于推荐算法的效果有着重要的影响;

5、关于用户画像构建,以下哪些选项是正确的
A、社交媒体上的信息都是真的;
B、可以使用机器学习方法对于社交用户的缺失属性进行填充;
C、可以借助网络表示模型进行构建;
D、可以使用不同数据源进行画像的构建;

第21讲 多媒体大数据管理与分析

多媒体大数据管理与分析

1、关于分级存储的叙述,下列哪项是错误的?
A、访问频率低、创建时间长、最后访问时间早的数据会被归于冷数据、进行冷存储;
B、冷存储一般使用比热存储成本高的存储器;
C、热数据使用的存储一般容量小、速度快;
D、分级存储的意义在于以可接受范围内的性能损失换取存储成本的降低;

2、什么问题往往包含特征提取、特征索引、特征匹配/排序等模块?
A、图像视频压缩;
B、图像视频传输;
C、图像视频检索;
D、图像视频采集;

3、人工神经网络____
A、解决线性问题最有优势;
B、由其激活函数定义网络结构;
C、在外界刺激(训练)无法改变内部参数;
D、中的卷积神经网络在图像任务中可以被视为训练得来的隐空间中稀疏的边缘探测器;

4、一般认为哪项不属于多媒体的范畴?
A、图片;
B、视频;
C、音频;
D、行车轨迹;

5、关于基于文字的检索和基于内容的检索的区别,哪项是错误的?
A、基于文字的检索一般只关注多媒体相关文本信息(如标题、简介)等和查询内容的匹配;
B、基于内容的检索,其查询形式也往往是多媒体;
C、基于内容的检索只能用于图像和视频,不能用于音频;
D、基于文字的检索可以与基于内容的检索搭配使用;

第22讲 数据可视化与可视分析

数据可视化与可视分析

1、数据可视化的主要步骤为
A、过滤、映射、渲染
B、映射、渲染、交互
C、过滤、映射、渲染、交互
D、过滤、映射、交互、渲染

2、高维数据可视化,首先要对数据进行什么操作
A、过滤与降维
B、分类
C、降维
D、聚类

3、数据可视化的领域包括
A、科学可视化
B、信息可视化
C、虚拟现实及增强现实
D、可视分析

4、可视分析涉及如下主要的技术
A、可视化
B、计算机交互
C、数据挖掘/机器学习
D、统计分析

期末考试

期末考试报告

1、请认真阅读如下要求,完成期末考试报告。不符合要求者酌情扣分: 1.选择新技术篇中 1~2个主题。因为第1讲为概述,所以请不要选择第1讲,否则该项成绩得0分。 2.报告内容要写自己的学习心得和体会,最好结合自己工作和学习的实践,不要泛泛议论。 3.报告严禁抄袭。将对期末考试报告查重。如内容引用其他文献,请给出引用出处。如发现抄袭,该项成绩得0分。 4.字数要求:1500-2000字。 5.文档要求:word格式(以便查重),并以附件形式上传。文档格式不正确或不作为附件上传,该项成绩得0分。 6.命名格式:第X讲Y+Z+中国大学MOOC账号昵称+真实姓名,以便准确登记成绩。其中,X为第X讲,Y为第X讲对应的内容名称,Z为第X讲的授课教师姓名。 7.请在答案提交框内注明:第X讲Y+Z。其中,X为第X讲,Y为第X讲对应的内容名称,Z为第X讲的授课教师姓名。