本答案对应课程为:点我自动跳转查看
本课程起止时间为:2020-02-21到2020-06-01
本篇答案更新状态:已完结

第二讲 特征工程概述 第二讲测验

1、 问题:为了在python程序中进行英文自然语言的处理,如词语切分(Tokenization)词干提取(Stemming)等工作,需要使用的导入模块语句通常为:
选项:
A:import matplotlib.pyplot as plt
B:import nltk
C:import numpy as np
D:from sklearn import svm, datasets
答案: 【import nltk

2、 问题:关于停用词(Stop words),下列说法错误的是
选项:
A:停用词是指在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后需要被过滤掉的某些字或词
B:停用词通常是非常常见的词,几乎可能出现在所有场合,因而对于信息检索、文本分类等应用区分度不大
C:在某些特殊应用如短语搜索 phrase search中,停用词可能是重要的构成部分,过滤掉会引起副作用,因此要避免进行停用词过滤
D:停用词是指比较古老的词汇,在当代已经几乎无人使用了
答案: 【停用词是指比较古老的词汇,在当代已经几乎无人使用了

3、 问题:为了进行中文的分词或者词性标注等处理,可以使用的导入模块语句为:
选项:
A:import matplotlib.pyplot as plt
B:import numpy as np
C:import jieba
D:from sklearn import svm, datasets
答案: 【import jieba

4、 问题:关于文档向量之间的欧氏距离和余弦相似度,错误的是
选项:
A:欧氏距离指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)
B:余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度
C:余弦值越接近0,就表明两个向量越相似
D:两个向量之间的欧氏距离越大,则通常其余弦相似度越小
答案: 【余弦值越接近0,就表明两个向量越相似

5、 问题:关于TF-IDF(term frequency–inverse document frequency),下面的说法错误的是
选项:
A:TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
B:TF-IDF的背景是:特征向量里高频词的权重更大,这些词在文集内其他文档里面也经常出现。它们往往太普遍,对区分文档起的作用不大。因此有必要抑制那些在很多文档中都出现了的词条的权重。
C:采用TF-IDF模式,词条t在文档d中的权重计算与词条在在文档d中的频率无关
D:其它答案都不对
答案: 【采用TF-IDF模式,词条t在文档d中的权重计算与词条在在文档d中的频率无关

6、 问题:下面关于特征缩放(Feature Scaler)的描述错误的是
选项:
A:特征缩放主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
B:其应用背景包括不同特征(列)不属于同一量纲等场合
C:常用特征缩放方法有标准化法、区间缩放法等
D:特征缩放主要是对特征矩阵中每个行,即每个样本的数值进行规范化处理
答案: 【特征缩放主要是对特征矩阵中每个行,即每个样本的数值进行规范化处理

7、 问题:下面关于特征矩阵的归一化(Normalizer)的描述错误的是
选项:
A:归一化是依照特征矩阵的行,即每个样本进行处理
B:其目的是使样本向量在进行点乘运算或计算相似性时,拥有统一的标准,即都转化为“单位向量”,使每个样本的范式等于 1。
C:归一化是主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理
D:常见的归一化公式为L1 范式和L2 范式等
答案: 【归一化是主要是对特征矩阵中每个列,即同一特征维度的数值进行规范化处理

8、 问题:关于特征降维方法有线性判别分析(LDA)和主成分分析法(PCA),错误的是
选项:
A:LDA和PCA的共同点是,都可以将原始的样本映射到维度更低的样本空间
B:LDA是为了让映射后的样本有最好的分类性能。即LDA是一种有监督的降维方法
C:PCA是为了让映射后的样本具有最大的发散性,即PCA是一种无监督的降维方法
D:LDA和PCA都是有监督的降维方法
答案: 【LDA和PCA都是有监督的降维方法

9、 问题:下面是对数据进行二值化处理的python程序from sklearn.preprocessing import Binarizerdata = [[0, 0], [50, 0], [100, 1], [80, 1]]print (Binarizer(threshold=60).fit_transform(data))则print语句的输出结果为
选项:
A:[[0 0] [0 0] [1 1] [0 1]]
B:[[1 0] [1 0] [0 1] [1 1]]
C:[[0 0] [0 0] [0 0] [0 0]]
D:[[0 0] [0 0] [1 0] [1 0]]
答案: 【[[0 0] [0 0] [1 0] [1 0]]

10、 问题:下面是一段文档的向量化的程序,且未经停用词过滤 from sklearn.feature_extraction.text import CountVectorizercorpus = [‘Jobs was the chairman of Apple Inc., and he was very famous’,’I like to use apple computer’,’And I also like to eat apple’] vectorizer =CountVectorizer()print(vectorizer.vocabulary_)print(vectorizer.fit_transform(corpus).todense()) #转化为完整特征矩阵 已知print(vectorizer.vocabulary_)的输出结果为:{u’and’: 1, u’jobs’: 9, u’apple’: 2, u’very’: 15, u’famous’: 6, u’computer’: 4, u’eat’: 5, u’he’: 7, u’use’: 14, u’like’: 10, u’to’: 13, u’of’: 11, u’also’: 0, u’chairman’: 3, u’the’: 12, u’inc’: 8, u’was’: 16}. 则最后一条print语句中文档D1,即’Jobs was the chairman of Apple Inc., and he was very famous’的向量为
选项:
A:[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]
B:[0 0 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0]
C:[1 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0]
D:其它答案都不对
答案: 【[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]

11、 问题:对于下面的一段python程序,计算的是向量之间的import numpy as npx=np.random.random(5)y=np.random.random(5)sim=np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
选项:
A:欧氏距离
B: 余弦相似度
C:欧式相似度
D:马修相关系数
答案: 【 余弦相似度

12、 问题:对于下面的一段python程序,sim中保存的是向量之间的:import numpy as npx=np.random.random(5)y=np.random.random(5)from scipy.spatial.distance import pdistX=np.vstack([x,y])sim=1-pdist(X,’cosine’)
选项:
A:欧氏距离
B:余弦相似度
C:余弦距离
D:马修相关系数
答案: 【余弦相似度

13、 问题:下面的一段python程序的目的是利用皮尔逊相关系数进行iris数据集特征选择import numpy as npfrom scipy.stats import pearsonrfrom sklearn import datasetsiris = datasets.load_iris()print (“Pearson’s correlation coefficient between column #1 and target column”, pearsonr(iris.data[:,0], iris.target ))print (“Pearson’s correlation coefficient between column #2 and target column”, pearsonr(iris.data[:,1], iris.target ))print (“Pearson’s correlation coefficient between column #3 and target column”, pearsonr(iris.data[:,2], iris.target ))print (“Pearson’s correlation coefficient between column #4 and target column”, pearsonr(iris.data[:,3], iris.target )) 其输出结果为:(“Pearson’s correlation coefficient between column #1 and target column”, (0.7825612318100814, 2.890478352614054e-32))(“Pearson’s correlation coefficient between column #2 and target column”, (-0.4194462002600275, 9.159984972550002e-08))(“Pearson’s correlation coefficient between column #3 and target column”, (0.9490425448523336, 4.1554775794971695e-76))(“Pearson’s correlation coefficient between column #4 and target column”, (0.9564638238016173, 4.775002368756619e-81)) 则如果去掉一个特征,应该选择哪一个特征去掉?
选项:
A:#1
B:#2
C:#3
D:#4
答案: 【#2

14、 问题:下面的一段python程序中有两条print语句,则下面哪一种选项更有可能是其实际的输出结果?import numpy as npfrom scipy.stats import pearsonrx = np.random.uniform(-1, 1, 100000) print (pearsonr(x, x2)[0] )print (pearsonr(x, x*2)[0] )
选项:
A:1.0, -1.0
B:1.0, 1.0
C:1.0, -0.0020496310421256546
D: -0.0020496310421256546, -0.0020496310421256546
答案: 【1.0, -0.0020496310421256546

15、 问题:下面的一段python程序的目的是对样本特征矩阵进行归一化处理,则空格处应该填充的函数是? from sklearn import datasetsiris = datasets.load_iris()from sklearn.preprocessing import Normalizerprint (Normalizer(norm=’l1′). (iris.data))
选项:
A:fit
B:fit_transform
C:transform
D:normalizer
答案: 【fit_transform

16、 问题:下面的一段python程序的目的是使用主成分分析法(principal component analysis) 对iris数据集进行特征降维,以便于数据的二维平面可视化。则其中空格处应该填充的数字为? import matplotlib.pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.datasets import load_irisdata = load_iris()X = data.datay = data.targetpca = PCA(n_components= )reduced_X = pca.fit_transform(X)
选项:
A:1
B:2
C:3
D:4
答案: 【2

17、 问题:下面的一段python程序的目的是使用区间缩放法对矩阵的列数据进行量纲缩放,则两处空格应该分别填入什么? from sklearn.preprocessing import MinMaxScalerdata = [[0, 0], [0, 78], [80, 1], [100, 89]] scaler = MinMaxScaler()scaler. (data)results=scaler. (data)print (results)
选项:
A:fit, fit
B:transform, transform
C:transform, fit
D:fit, transform
答案: 【fit, transform

18、 问题:下面的一段python程序的目的什么?import scipy.sparse as spfrom sklearn.preprocessing import Imputerx = sp.csc_matrix([ [1, 2], [0, 3], [7, 6]])imp = Imputer(missing_values=0, strategy=’mean’, verbose=0)imp.fit(x)x_test = sp.csc_matrix([ [0, 2], [6, 0], [7, 6]])
选项:
A:样本特征矩阵的量纲的缩放
B:缺失值补齐,将0视为缺失值
C:样本特征矩阵的归一化
D:多项式特征的生成
答案: 【缺失值补齐,将0视为缺失值

19、 问题:关于下面的python程序的描述错误的是?from sklearn.feature_extraction.text import CountVectorizercorpus = [‘Jobs was the chairman of Apple Inc., and he was very famous’,’I like to use apple computer’,’And I also like to eat apple’] vectorizer =CountVectorizer(ngram_range=(1,2))print(“N-gram mode: “,vectorizer.fit_transform(corpus).todense()) print(“N-gram mode: “,vectorizer.vocabulary_)
选项:
A:用n-gram模式进行文档向量化
B: vocabulary_中既包括unigram,也包括bigram
C:CountVectorizer没有考虑到IDF,即倒排文档频率
D:vocabulary_中只包括bi-gram
答案: 【vocabulary_中只包括bi-gram

20、 问题:为了使用主成分分析法(principal component analysis) 对iris数据集进行特征降维,以便于数据的二维平面可视化。 则下面哪一条import语句不是必须的?
选项:
A:import matplotlib.pyplot as plt
B:from sklearn.decomposition import PCA
C:from sklearn.datasets import load_iris
D:from sklearn.feature_extraction.text import CountVectorizer
答案: 【from sklearn.feature_extraction.text import CountVectorizer

21、 问题:下图是使用主成分分析法对iris数据集进行特征降维并进行二维平面可视化的结果。则为了绘图,需要使用的导入语句是下面哪一种?
选项:
A:import matplotlib.pyplot as plt
B:from sklearn.decomposition import PCA
C:from sklearn.lda import LDA
D:import numpy as np
答案: 【import matplotlib.pyplot as plt

22、 问题:下面哪一条语句是用于导入nltk中的英文词性标注的模块?
选项:
A:from nltk import word_tokenize
B:from nltk.stem import PorterStemmer
C:from nltk import pos_tag
D:from nltk.corpus import treebank
答案: 【from nltk import pos_tag

23、 问题:自然语言处理中为了计算文档之间的相似度,往往需进行文档的量化表示,下面关于BOW(即Bag-Of-Words model)和VSM(Vector Space Model)的描述正确的是:
选项:
A:BOW,即词袋模型。即为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合
B:VSM,即向量空间模型。是一种表示文本文档的数学模型。将每个文档表示成同一向量空间的向量
C:在VSM,即向量空间模型中,所有文档的向量维度的数目都相同
D:其它答案都不对

本门课程剩余章节答案为付费内容
本文章不含期末不含主观题!!
本文章不含期末不含主观题!!
支付后可长期查看
有疑问请添加客服QQ 2356025045反馈
如遇卡顿看不了请换个浏览器即可打开
请看清楚了再购买哦,电子资源购买后不支持退款哦

   

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注