2020 深度学习技术(太原理工大学) 最新满分章节测试答案

文章目录[隐藏]

第二讲特征工程概述第二讲测验
第一讲深度学习概述第一讲测验
第四讲信息熵及梯度计算第四讲测验
第三讲回归问题及正则化第三讲测验
第六讲卷积神经网络第六讲测验
第五讲循环神经网络及其变体第五讲测验
第八讲生成式神经网络第八讲测验
第七讲递归神经网络第七讲测验

本答案对应课程为:点我自动跳转查看
本课程起止时间为:2020-02-21到2020-06-01
本篇答案更新状态:已完结

第二讲特征工程概述第二讲测验

1、问题:为了在python程序中进行英文自然语言的处理，如词语切分（Tokenization）词干提取（Stemming）等工作，需要使用的导入模块语句通常为：
选项：
A:import matplotlib.pyplot as plt
B:import nltk
C:import numpy as np
D:from sklearn import svm, datasets
答案: 【import nltk】

2、问题:关于停用词（Stop words），下列说法错误的是
选项：
A:停用词是指在信息检索中，为节省存储空间和提高处理效率，在处理自然语言文本之前或之后需要被过滤掉的某些字或词
B:停用词通常是非常常见的词，几乎可能出现在所有场合，因而对于信息检索、文本分类等应用区分度不大
C:在某些特殊应用如短语搜索 phrase search中，停用词可能是重要的构成部分，过滤掉会引起副作用，因此要避免进行停用词过滤
D:停用词是指比较古老的词汇，在当代已经几乎无人使用了
答案: 【停用词是指比较古老的词汇，在当代已经几乎无人使用了】

3、问题:为了进行中文的分词或者词性标注等处理，可以使用的导入模块语句为：
选项：
A:import matplotlib.pyplot as plt
B:import numpy as np
C:import jieba
D:from sklearn import svm, datasets
答案: 【import jieba】

4、问题:关于文档向量之间的欧氏距离和余弦相似度，错误的是
选项：
A:欧氏距离指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）
B:余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度
C:余弦值越接近0，就表明两个向量越相似
D:两个向量之间的欧氏距离越大，则通常其余弦相似度越小
答案: 【余弦值越接近0，就表明两个向量越相似】

5、问题:关于TF-IDF（term frequency–inverse document frequency），下面的说法错误的是
选项：
A:TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。
B:TF-IDF的背景是：特征向量里高频词的权重更大，这些词在文集内其他文档里面也经常出现。它们往往太普遍，对区分文档起的作用不大。因此有必要抑制那些在很多文档中都出现了的词条的权重。
C:采用TF-IDF模式，词条t在文档d中的权重计算与词条在在文档d中的频率无关
D:其它答案都不对
答案: 【采用TF-IDF模式，词条t在文档d中的权重计算与词条在在文档d中的频率无关】

6、问题:下面关于特征缩放（Feature Scaler）的描述错误的是
选项：
A:特征缩放主要是对特征矩阵中每个列，即同一特征维度的数值进行规范化处理
B:其应用背景包括不同特征（列）不属于同一量纲等场合
C:常用特征缩放方法有标准化法、区间缩放法等
D:特征缩放主要是对特征矩阵中每个行，即每个样本的数值进行规范化处理
答案: 【特征缩放主要是对特征矩阵中每个行，即每个样本的数值进行规范化处理】

7、问题:下面关于特征矩阵的归一化（Normalizer）的描述错误的是
选项：
A:归一化是依照特征矩阵的行，即每个样本进行处理
B:其目的是使样本向量在进行点乘运算或计算相似性时，拥有统一的标准，即都转化为“单位向量”，使每个样本的范式等于 1。
C:归一化是主要是对特征矩阵中每个列，即同一特征维度的数值进行规范化处理
D:常见的归一化公式为L1 范式和L2 范式等
答案: 【归一化是主要是对特征矩阵中每个列，即同一特征维度的数值进行规范化处理】

8、问题:关于特征降维方法有线性判别分析（LDA）和主成分分析法（PCA），错误的是
选项：
A:LDA和PCA的共同点是，都可以将原始的样本映射到维度更低的样本空间
B:LDA是为了让映射后的样本有最好的分类性能。即LDA是一种有监督的降维方法
C:PCA是为了让映射后的样本具有最大的发散性，即PCA是一种无监督的降维方法
D:LDA和PCA都是有监督的降维方法
答案: 【LDA和PCA都是有监督的降维方法】

9、问题:下面是对数据进行二值化处理的python程序from sklearn.preprocessing import Binarizerdata = [[0, 0], [50, 0], [100, 1], [80, 1]]print (Binarizer(threshold=60).fit_transform(data))则print语句的输出结果为
选项：
A:[[0 0] [0 0] [1 1] [0 1]]
B:[[1 0] [1 0] [0 1] [1 1]]
C:[[0 0] [0 0] [0 0] [0 0]]
D:[[0 0] [0 0] [1 0] [1 0]]
答案: 【[[0 0] [0 0] [1 0] [1 0]]】

10、问题:下面是一段文档的向量化的程序，且未经停用词过滤 from sklearn.feature_extraction.text import CountVectorizercorpus = [‘Jobs was the chairman of Apple Inc., and he was very famous’,’I like to use apple computer’,’And I also like to eat apple’] vectorizer =CountVectorizer()print(vectorizer.vocabulary_)print(vectorizer.fit_transform(corpus).todense()) #转化为完整特征矩阵已知print(vectorizer.vocabulary_)的输出结果为：{u’and’: 1, u’jobs’: 9, u’apple’: 2, u’very’: 15, u’famous’: 6, u’computer’: 4, u’eat’: 5, u’he’: 7, u’use’: 14, u’like’: 10, u’to’: 13, u’of’: 11, u’also’: 0, u’chairman’: 3, u’the’: 12, u’inc’: 8, u’was’: 16}. 则最后一条print语句中文档D1，即’Jobs was the chairman of Apple Inc., and he was very famous’的向量为
选项：
A:[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]
B:[0 0 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0]
C:[1 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0]
D:其它答案都不对
答案: 【[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]】

11、问题:对于下面的一段python程序，计算的是向量之间的import numpy as npx=np.random.random(5)y=np.random.random(5)sim=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
选项：
A:欧氏距离
B: 余弦相似度
C:欧式相似度
D:马修相关系数
答案: 【余弦相似度】

12、问题:对于下面的一段python程序，sim中保存的是向量之间的：import numpy as npx=np.random.random(5)y=np.random.random(5)from scipy.spatial.distance import pdistX=np.vstack([x,y])sim=1-pdist(X,’cosine’)
选项：
A:欧氏距离
B:余弦相似度
C:余弦距离
D:马修相关系数
答案: 【余弦相似度】

13、问题:下面的一段python程序的目的是利用皮尔逊相关系数进行iris数据集特征选择import numpy as npfrom scipy.stats import pearsonrfrom sklearn import datasetsiris = datasets.load_iris()print (“Pearson’s correlation coefficient between column #1 and target column”, pearsonr(iris.data[:,0], iris.target ))print (“Pearson’s correlation coefficient between column #2 and target column”, pearsonr(iris.data[:,1], iris.target ))print (“Pearson’s correlation coefficient between column #3 and target column”, pearsonr(iris.data[:,2], iris.target ))print (“Pearson’s correlation coefficient between column #4 and target column”, pearsonr(iris.data[:,3], iris.target )) 其输出结果为：(“Pearson’s correlation coefficient between column #1 and target column”, (0.7825612318100814, 2.890478352614054e-32))(“Pearson’s correlation coefficient between column #2 and target column”, (-0.4194462002600275, 9.159984972550002e-08))(“Pearson’s correlation coefficient between column #3 and target column”, (0.9490425448523336, 4.1554775794971695e-76))(“Pearson’s correlation coefficient between column #4 and target column”, (0.9564638238016173, 4.775002368756619e-81)) 则如果去掉一个特征，应该选择哪一个特征去掉？
选项：
A:#1
B:#2
C:#3
D:#4
答案: 【#2】

14、问题:下面的一段python程序中有两条print语句，则下面哪一种选项更有可能是其实际的输出结果？import numpy as npfrom scipy.stats import pearsonrx = np.random.uniform(-1, 1, 100000) print (pearsonr(x, x2)[0] )print (pearsonr(x, x*2)[0] )
选项：
A:1.0, -1.0
B:1.0, 1.0
C:1.0, -0.0020496310421256546
D: -0.0020496310421256546, -0.0020496310421256546
答案: 【1.0, -0.0020496310421256546】

15、问题:下面的一段python程序的目的是对样本特征矩阵进行归一化处理，则空格处应该填充的函数是？ from sklearn import datasetsiris = datasets.load_iris()from sklearn.preprocessing import Normalizerprint (Normalizer(norm=’l1′). (iris.data))
选项：
A:fit
B:fit_transform
C:transform
D:normalizer
答案: 【fit_transform】

16、问题:下面的一段python程序的目的是使用主成分分析法（principal component analysis）对iris数据集进行特征降维，以便于数据的二维平面可视化。则其中空格处应该填充的数字为？ import matplotlib.pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.datasets import load_irisdata = load_iris()X = data.datay = data.targetpca = PCA(n_components= )reduced_X = pca.fit_transform(X)
选项：
A:1
B:2
C:3
D:4
答案: 【2】

17、问题:下面的一段python程序的目的是使用区间缩放法对矩阵的列数据进行量纲缩放，则两处空格应该分别填入什么？ from sklearn.preprocessing import MinMaxScalerdata = [[0, 0], [0, 78], [80, 1], [100, 89]] scaler = MinMaxScaler()scaler. (data)results=scaler. (data)print (results)
选项：
A:fit， fit
B:transform， transform
C:transform， fit
D:fit， transform
答案: 【fit， transform】

18、问题:下面的一段python程序的目的什么?import scipy.sparse as spfrom sklearn.preprocessing import Imputerx = sp.csc_matrix([ [1, 2], [0, 3], [7, 6]])imp = Imputer(missing_values=0, strategy=’mean’, verbose=0)imp.fit(x)x_test = sp.csc_matrix([ [0, 2], [6, 0], [7, 6]])
选项：
A:样本特征矩阵的量纲的缩放
B:缺失值补齐，将0视为缺失值
C:样本特征矩阵的归一化
D:多项式特征的生成
答案: 【缺失值补齐，将0视为缺失值】

19、问题:关于下面的python程序的描述错误的是?from sklearn.feature_extraction.text import CountVectorizercorpus = [‘Jobs was the chairman of Apple Inc., and he was very famous’,’I like to use apple computer’,’And I also like to eat apple’] vectorizer =CountVectorizer(ngram_range=(1,2))print(“N-gram mode: “,vectorizer.fit_transform(corpus).todense()) print(“N-gram mode: “,vectorizer.vocabulary_)
选项：
A:用n-gram模式进行文档向量化
B: vocabulary_中既包括unigram，也包括bigram
C:CountVectorizer没有考虑到IDF，即倒排文档频率
D:vocabulary_中只包括bi-gram
答案: 【vocabulary_中只包括bi-gram】

20、问题:为了使用主成分分析法（principal component analysis）对iris数据集进行特征降维，以便于数据的二维平面可视化。则下面哪一条import语句不是必须的？
选项：
A:import matplotlib.pyplot as plt
B:from sklearn.decomposition import PCA
C:from sklearn.datasets import load_iris
D:from sklearn.feature_extraction.text import CountVectorizer
答案: 【from sklearn.feature_extraction.text import CountVectorizer】

21、问题:下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图，需要使用的导入语句是下面哪一种？
选项：
A:import matplotlib.pyplot as plt
B:from sklearn.decomposition import PCA
C:from sklearn.lda import LDA
D:import numpy as np
答案: 【import matplotlib.pyplot as plt】

22、问题:下面哪一条语句是用于导入nltk中的英文词性标注的模块？
选项：
A:from nltk import word_tokenize
B:from nltk.stem import PorterStemmer
C:from nltk import pos_tag
D:from nltk.corpus import treebank
答案: 【from nltk import pos_tag】

23、问题:自然语言处理中为了计算文档之间的相似度，往往需进行文档的量化表示，下面关于BOW（即Bag-Of-Words model）和VSM（Vector Space Model）的描述正确的是：
选项：
A:BOW，即词袋模型。即为了计算文档之间的相似度，假设可以忽略文档内的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合
B:VSM，即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量
C:在VSM，即向量空间模型中，所有文档的向量维度的数目都相同
D:其它答案都不对