2021 深度学习基础(山西医科大学) 最新满分章节测试答案

文章目录[隐藏]

第四讲信息熵及梯度计算第四讲测验
第三讲回归问题及正则化第三讲测验
第八讲生成式神经网络第八讲测验
第五讲循环神经网络及其变体第五讲测验
第七讲递归神经网络第七讲测验
第二讲特征工程概述第二讲测验
第一讲深度学习概述第一讲测验
第六讲卷积神经网络第六讲测验

本答案对应课程为:点我自动跳转查看
本课程起止时间为:2021-04-16到2021-07-04
本篇答案更新状态:已完结

第四讲信息熵及梯度计算第四讲测验

1、问题: 下面关于信息熵的描述中错误的是：
选项：
A:热力学中的热熵是表示分子状态混乱程度的物理量。信息熵概念的提出受到了热力学中的热熵的概念的启发
B:信息熵由Shannon提出，信息熵的概念可以用来描述信源的不确定度
C:信息熵是通信领域的概念，和机器学习以及深度学习无关
D:在深度学习中，经常使用交叉熵来表征两个变量概率分布P, Q（假设P表示真实分布, Q为模型预测的分布）的差异性。
答案: 【信息熵是通信领域的概念，和机器学习以及深度学习无关】

2、问题:下面关于相对熵(relative entropy) 的说法不正确的是
选项：
A:相对熵又称为KL散度（Kullback–Leibler divergence）
B:相对熵又称为信息散度（information divergence）
C:相对熵又称为信息增益（information gain）
D:相对熵又被称之为KL距离，因此满足对称性
答案: 【相对熵又被称之为KL距离，因此满足对称性】

3、问题:下面关于JS散度和KL散度的区别的说法错误的是
选项：
A:KL散度不具对称性
B:JS散度具备对称性
C:JS散度在KL散度的基础上进行了改进
D:二者都不具备对称性
答案: 【二者都不具备对称性】

4、问题:关于感知机（perceptron），下列说法错误的是
选项：
A:感知机由Rosenblatt于1957年提出，是神经网络的基础
B:感知机是二分类的线性分类模型，属于有监督学习算法
C:感知机是二分类的线性分类模型，属于无监督学习算法
D:感知机的预测是用学习得到的感知机模型对新的实例进行预测的，因此属于判别模型
答案: 【感知机是二分类的线性分类模型，属于无监督学习算法】

5、问题:感知机通过使用激励函数（activation function ）处理解释变量和模型参数的线性组合对样本分类。Rosenblatt最初的感知器用的激励函数是
选项：
A: sigmoid函数
B: 阶跃函数
C:tanh函数
D:relu函数
答案: 【阶跃函数】

6、问题:下列哪种概念表达了在已知随机变量Y的条件下随机变量X的不确定性？
选项：
A:交叉熵
B:互信息
C:条件熵
D:相对熵
答案: 【条件熵】

7、问题:下图是信息熵相关概念的文氏图解，其中左侧圆 (既包括红色也包括紫色的区域)为变量X自身的熵H(X)。其中红色区域为条件熵conditional entropy H(X|Y)。右侧圆（既包括蓝色也包括紫色的区域）为变量Y自身的熵H(Y), 其中蓝色区域为条件熵conditional entropy H(Y|X)。则中间的紫色的区域为？
选项：
A:交叉熵
B:联合熵
C:互信息
D:相对熵
答案: 【互信息】

8、问题:对于下面的一段python程序，下面的说法错误的是import numpy as npp=np.asarray([0.65,0.25,0.07,0.03])q=np.array([0.6,0.25,0.1,0.05]) kl1=np.sum(pnp.log(p/q))kl2=np.sum(qnp.log(q/p))
选项：
A:程序最后两行的计算结果是相等的
B:程序最后两行的计算结果是不相等的
C:程序最后两行的的目的是计算相对熵，其是交叉熵与信息熵的差值
D:程序的目的是计算相对熵，其不具备对称性
答案: 【程序最后两行的计算结果是相等的】

9、问题:下列关于反向传播（backpropagation）算法的描述中，错误的是
选项：
A:反向传播算法的学习过程由正向传播过程和反向传播过程组成，不存在迭代过程
B:在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层
C:如果经过正向传播，在输出层得不到期望的输出值，则利用输出与期望计算目标函数（损失函数），转入反向传播
D:反向传播需要逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯度，作为修改权值的依据。在机器学习中，训练数据通常是给定和固定的，而权重参数等是作为变量并进行更新的
答案: 【反向传播算法的学习过程由正向传播过程和反向传播过程组成，不存在迭代过程】

10、问题:对于下面的一段python程序，下面的说法正确的是import numpy as npp=np.asarray([0.65,0.25,0.07,0.03])q=np.array([0.6,0.25,0.1,0.05])M=(p+q)/2result=0.5np.sum(pnp.log(p/M))+0.5np.sum(qnp.log(q/M))
选项：
A:最后一行是计算p和q之间的KL散度
B:最后一行是计算p和q之间的JS散度
C:最后一行是计算p和q之间的条件熵
D: 最后一行是计算p和q之间的交叉熵
答案: 【最后一行是计算p和q之间的JS散度】

11、问题:对于下面的一段python程序，下面的说法正确的是 import numpy as npimport scipy.statsp=np.asarray([0.65,0.25,0.07,0.03])q=np.array([0.6,0.25,0.1,0.05])M=(p+q)/2result=0.5scipy.stats.entropy(p, M)+0.5scipy.stats.entropy(q, M)
选项：
A:最后一行是计算p和q之间的KL散度
B:最后一行是计算p和q之间的JS散度
C:最后一行是计算p和q之间的条件熵
D: 最后一行是计算p和q之间的交叉熵
答案: 【最后一行是计算p和q之间的JS散度】

12、问题:对于下面的一段python程序，下面的说法正确的是import numpy as nppredicted=np.array([11.2, 2.5, 7.9, 7.2])label=np.array([1, 0, 0, 0])def softmax(x): return np.exp(x)/np.sum(np.exp(x),axis=0) print (softmax(predicted))loss=-np.sum(label*np.log(softmax(predicted)))
选项：
A:最后一行是计算predicted和label之间的互信息
B: 最后一行是计算predicted和label之间的JS散度
C: 最后一行是计算predicted和label之间的条件熵
D:最后一行是计算predicted和label之间的交叉熵
答案: 【最后一行是计算predicted和label之间的交叉熵】

13、问题:对于给定的下面的一段python程序及其输出，下面的说法正确的是import numpy as np a=np.asarray([0.5,0.5]) #假设a为实际分布b=np.array([0.25,0.75])c=np.array([0.125,0.875])kl1=np.sum(anp.log(a/b))print ("b,a",kl1)kl2=np.sum(anp.log(a/c))print ("c,a",kl2) 其输出结果为b,a 0.143841036226c,a 0.413339286592
选项：
A:程序的输出是计算了条件熵
B:程序的输出是计算了互信息
C: b和c相比，更接近实际分布a
D:c和b相比，更接近实际分布a
答案: 【 b和c相比，更接近实际分布a】

14、问题:对于给定的下面的一段计算香农信息熵的python程序（已知x1和x2的概率分布），则其输出结果应该为下面的哪个选项？import numpy as npdef calc_ent(x):    x_value_list = set([x[i] for i in range(x.shape[0])])    ent = 0.0    for x_value in x_value_list:        p = float(x[x == x_value].shape[0]) / x.shape[0]#概率        logp = np.log2(p)        ent -= p * logp    return entx1=np.array([0.25, 0.25, 0.25, 0.25])x2=np.array([0.1, 0.2, 0.3, 0.4])print ("entropy of x1:", calc_ent(x1))print ("entropy of x2: ", calc_ent(x2))
选项：
A:  entropy of x1: 0.0； entropy of x2: 2.0
B: entropy of x1: 2.0； entropy of x2: 0.0
C: entropy of x1: 2.0； entropy of x2: 2.0
D:entropy of x1: 1.0； entropy of x2: 2.0
答案: 【  entropy of x1: 0.0； entropy of x2: 2.0】

15、问题:对于给定的下面的一段python程序，则程序最后，result中保存的是？ from math import logdef calcShannonEnt(dataSet): length,dataDict=float(len(dataSet)),{} for data in dataSet: try:dataDict[data]+=1 except:dataDict[data]=1 return sum([-d/length*log(d/length) for d in list(dataDict.values())]) Ent_x1=calcShannonEnt([‘3’, ‘4’, ‘5’, ‘5’, ‘3’, ‘2’, ‘2’, ‘6’, ‘6’, ‘1’])Ent_x2=calcShannonEnt([‘7’, ‘2’, ‘1’, ‘3’, ‘2’, ‘8’, ‘9’, ‘1’, ‘2’, ‘0’])Ent_x1x2=calcShannonEnt([’37’, ’42’, ’51’, ’53’, ’32’, ’28’, ’29’, ’61’, ’62’, ’10’])result=Ent_x1+Ent_x2-Ent_x1x2
选项：
A:交叉熵
B:联合熵
C:互信息
D:相对熵
答案: 【互信息】

16、问题:对于给定的下面的一段python程序。已知D是W与X的点乘，且W为参数矩阵，X为样本矩阵，则空格中应该填入的数值是import numpy as np# 正向传播W = np.random.randn(5, )X = np.random.randn(10, 2)D = W.dot(X)
选项：
A:10
B:5
C:2
D:1
答案: 【10】

17、问题:为了在sklearn中使用感知机模型进行20新闻组的文本分类，则下面的导入模块语句中不是必要的是
选项：
A: from sklearn.datasets import fetch_20newsgroups
B:from sklearn.naive_bayes import GaussianNB
C:from sklearn.feature_extraction.text import TfidfVectorizer
D: from sklearn.linear_model import Perceptron
答案: 【from sklearn.naive_bayes import GaussianNB】

18、问题:假设多层感知机中输入层中的节点数为10，隐藏层中的节点数目为5，则从输入层到隐藏层的连接数是
选项：
A:50
B:10
C:5
D:可以取任意值
答案: 【50】

19、问题:下面关于梯度下降法描述正确的是
选项：
A:梯度下降法作为机器学习中较常使用的优化算法，其有着三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）
B:批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新
C:随机梯度下降法不同于批量梯度下降，是每次迭代使用一个样本来对参数进行更新
D:小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch，每个batch包含m个样本。每次更新都利用一个batch的数据，而非整个训练集
答案: 【梯度下降法作为机器学习中较常使用的优化算法，其有着三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）;
批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新;
随机梯度下降法不同于批量梯度下降，是每次迭代使用一个样本来对参数进行更新;
小批量梯度下降法是对批量梯度下降以及随机梯度下降的一个折中办法。更新参数时使用一部分训练样本。一般将训练样本集分成若干个batch，每个batch包含m个样本。每次更新都利用一个batch的数据，而非整个训练集】

第三讲回归问题及正则化第三讲测验

1、问题:关于线性模型，下列说法错误的是
选项：
A:狭义线性模型通常是指自变量与因变量之间呈按比例、成直线的关系。一阶导数不为常数
B:线性通常表现为1次曲线
C:广义线性是线性模型的扩展，主要通过联结函数，使预测值落在响应变量的变幅内
D:非线性一般指不按比例、不成直线的关系，一阶导数不为常数
答案: 【狭义线性模型通常是指自变量与因变量之间呈按比例、成直线的关系。一阶导数不为常数】

2、问题:下列关于梯度下降（Gradient descent ）法的描述错误的是
选项：
A:梯度下降是利用一阶的梯度信息找到代价函数局部最优解的一种方法
B:通常会先初始化一组参数值, 在这个值之上，用梯度下降法去求出下一组的值。由于是梯度下降的，所以损失函数的值在下降。当迭代到一定程度，损失函数取值趋于稳定，此时的参数取值即为要求得的值
C:学习速率的选取很关键，如果学习速率取值过大，容易达不到极值点甚至会发散，学习速率太小容易导致收敛时间过长
D:其中的学习速率是模型参数，而不是超参数
答案: 【其中的学习速率是模型参数，而不是超参数】