本答案对应课程为:点我自动跳转查看
本课程起止时间为:2021-03-03到2021-07-11
本篇答案更新状态:已完结

第1章 数据整理 正则表达式练习

1、 问题:能够在字符串“aabaaabaaaab”中匹配“aab”,而不能匹配“aaab”和“aaaab”的正则表达式包括
选项:
A:“a*?b”
B:“a{,2}b”
C:“aa??b”
D:“aaa??b”
答案: 【“aa??b”

2、 问题:能够完全匹配字符串“(010)-62661617”和字符串“01062661617”的正则表达式包括
选项:
A:“(?\d{3})?-?\d{8}”
B:“[0-9()-]+”
C:“[(]?\d[)-]\d
D:“[0-9(-)]
\d
答案: 【“(?\d{3})?-?\d{8}”;
“[0-9()-]+”;
“[(]?\d
[)-]\d”】

3、 问题:能够完全匹配字符串“c:\rapidminer\lib\plugs”的正则表达式包括
选项:
A:“c:\rapidminer\lib\plugs”
B:“c:\rapidminer\lib\plugs”
C:“(?i)C:\RapidMiner\Lib\Plugs”
D:“(?s)C:\RapidMiner\Lib\Plugs”
答案: 【“c:\rapidminer\lib\plugs”;
“(?i)C:\RapidMiner\Lib\Plugs”

4、 问题:能够完全匹配字符串“back”和“back-end”的正则表达式包括
选项:
A:“\w{4}-\w{3}|\w{4}”
B:“\w{4}|\w{4}-\w{3}”
C:“\S+-\S+|\S+”
D:“\w\b-\b\w|\w
答案: 【“\w{4}-\w{3}|\w{4}”;
“\S+-\S+|\S+”;
“\w
\b-\b\w|\w”】

5、 问题:能够完全匹配字符串“go go”和“kitty kitty”,但不能完全匹配“go kitty”的正则表达式包括
选项:
A:“\b(\w+)\b\s+\1\b”
B:“\w{2,5}\s*\1”
C:“(\S+) \s+\1”
D:“(\S{2,5})\s{1,}\1”
答案: 【“\b(\w+)\b\s+\1\b”;
“(\S{2,5})\s{1,}\1”

6、 问题:观察下面双引号内的两段文本(1)“中文名 贝拉克·侯赛因·奥巴马 外文名 Barack Hussein Obama II 别    名 欧巴马 国    籍 美国 民    族 德裔族 出生地 美国夏威夷州檀香山 出生日期 1961年8月4日 职    业 政治家、律师、总统 毕业院校 哥伦比亚大学,哈佛大学 信    仰 新教 主要成就 1996年伊利诺伊州参议员 主要成就 美国第56届、57届总统 2009年诺贝尔和平奖获得者 时代周刊年度风云人物 2008、2011 任期内清除本·拉登 代表作品 《我相信变革》《我父亲的梦想》《无畏的希望》 所属政党 美国民主党 血    型 AB型 学    院 西方学院 妻    子 米歇尔·拉沃恩·奥巴马 性    别 男”;(2)“中文名 唐纳德·特朗普 外文名 Donald Trump 别    名 Donald John Trump、川普 国    籍 美国 民    族 德意志人 出生日期 1946年6月14日 职    业 政治家、企业家、房地产商人、电视人 毕业院校 宾夕法尼亚大学沃顿商学院、纽约军事学院 代表作品 做生意的艺术、学徒 出生地 美国纽约 主要成就 第45任美国总统(2017年1月20日-2021年1月20日) 《时代周刊》2016年度人物 所属政党 美国共和党 净资产 21亿美元(2020年4月) 身    高 190 cm“。请严格按照答案填写要求回答下面5道填空题,包括本题。注意汉字占一个字符。当使用正则表达式“中文名[填空]”([填空]处填写11个字符,表达式尽可能通用,只能使用圆括号、\s\S这两个元字符和+?这两个重复元字符)分别抽取奥巴马和特朗普的中文名时,替换字符串“$1”的赋值为需要抽取的中文名。
答案: 【\s+(\S+)\s+

7、 问题:当使用正则表达式“外文名[填空]”([填空]处填写12个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和+?这两个重复元字符)分别抽取奥巴马和特朗普的外文名时,替换字符串“$1”的赋值为需要抽取的外文名。
答案: 【\s+(.+?)\s+别

8、 问题:使用正则表达式“职[填空]”([填空]处填写19个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和+?这两个重复元字符)分别抽取奥巴马和特朗普的职业时,替换字符串“$1”的赋值为需要抽取的职业。
答案: 【\s+业\s+(.+?)\s+毕业院校

9、 问题:当使用正则表达式“出生日期[填空]”([填空]处填写11个字符,表达式尽可能通用,只能使用圆括号、\s\S这两个元字符和+?这两个重复元字符)分别抽取奥巴马和特朗普的出生日期时,替换字符串“$1”的赋值为需要抽取的出生日期。
答案: 【\s+(\S+)\s+

10、 问题:使用正则表达式“民[填空]”([填空]处填写17个字符,表达式尽可能通用,只能使用圆括号、汉字、.\s这两个元字符和+?这两个重复元字符)分别抽取奥巴马和特朗普的民族时,替换字符串“$1”的赋值为需要抽取的民族。
答案: 【\s+族\s+(.+?)\s+出生

【作业】第2章 新闻摘要系统 美食杰采集课堂小测

1、 问题:采集https://www.meishij.net/shicai/页面中,从白菜到胡麻油的各种食材的超链接(link)和食材名(name),并通过超链接下载所有食材关联的菜式列表首页,保存到RapidMiner数据库meishijie中。注意保存的表单必须以上述括号内的英文单词作为字段名。
评分规则: 【 下载并抽取食材列表,共641个食材。缺少1个字段扣10分,缺少1个食材扣2分,扣完20分为止。
下载并保存所有食材关联的菜式列表首页,共641个食材。缺少1个食材扣3分,扣完30分为止。

2、 问题:采集https://www.meishij.net/shicaizuofa/baicai/页面中,所有菜式的超链接(link)、菜式名(title)、评论数(comments)和人气数(views)。注意保存的表单必须以上述括号内的英文单词作为字段名。
评分规则: 【 采集列表的字段集合正确,缺少一个字段扣5分。
采集列表的记录集合正确,共12个菜式。缺少一条记录扣5分,扣完30分为止。

第4章 信用风险评分方法 代价敏感贝叶斯分类器练习

1、 问题:读入单元测试数据中的all_cust.xls文件,其中Churn设定为分类任务的label角色,Customer_ID设定为id角色,一共有____个常规数值属性。
答案: 【16

2、 问题:将所有数值属性进行基于熵的离散化预处理,仅剩下____个常规角色的标称属性。
答案: 【6

3、 问题:根据流失类(其值为1)的分类代价在10折交叉验证中最小化的原则,其中将流失类(1)预测为非流失类(0)的代价为30,将非流失类(0)预测为流失类(1)的代价为1,其余代价为0,交叉验证的随机种子设置为1,则设定confidence(1)的阈值为____(保留三位小数,注意粒度为千分之一)。当confidence(1)的数值≥该阈值时将未知记录归类为流失类。保存朴素贝叶斯模型(文件名自己定义),供下面的填充题使用。
答案: 【0.016

4、 问题:读入单元测试数据中的target_cust.csv文件,其中Churn设定为label角色,Customer_ID设定为id角色,应用上题中保存的朴素贝叶斯模型。根据“confidence(1)的数值≥上题中确定的阈值”生成预测结果,则预测结果为1的记录一共有____条。
答案: 【204

第5章 网站数据分析 网站日志数据整理练习

1、 问题:读入网络日志miis.log文件(在zip压缩包中),该网络日志文件一共有           条记录。
答案: 【238316

2、 问题:每条记录有        个不同的属性。
答案: 【19

3、 问题:每条记录各对应一个页面请求,这些记录涵盖了          天(填写天数)的网站访问数据。
答案: 【3

4、 问题:假设系统自动发起的页面请求的网址后缀是jpg、gif、cdf和sme,其他页面请求都是用户主动发起的,那么在所有记录中,用户主动发起的页面请求记录一共有          个。
答案: 【29600

5、 问题:假设客户端IP地址相同、用户代理相同,并且访问时间不超过1800秒的两次用户主动发起的页面请求属于同一访问,那么网络日志文件中一共包含          个不同的访问。
答案: 【6806

6、 问题:其中含有3个或以上用户主动发起页面请求的访问有           个。
答案: 【4389

7、 问题:含有2个用户主动发起页面请求的访问有           个。
答案: 【1037

8、 问题:所有访问中,每个访问平均有              个(四舍五入保留两位小数)用户主动发起页面请求。
答案: 【4.35

9、 问题:所有访问中,最多有           个用户主动发起页面请求。
答案: 【29

10、 问题:假设Cookie相同且Cookie不是字符“-”的两次用户主动发起的页面请求属于同一访问者的请求,那么网络日志文件中一共包含          个不同的访问者(注意Cookie为字符“-”的页面请求不属于任意访问者)。
答案: 【5194

11、 问题:该网络日志中涉及的不同用户名(username)有        个。
答案: 【1129

12、 问题:该网络日志中涉及的不同订单号(order_no)有        个。
答案: 【345

13、 问题:假设我们将含有2个或以上用户主动发起页面请求的访问称作有效访问。该网络日志中有效访问共有       个。
答案: 【5426

14、 问题:有效访问的平均逗留时间是        秒(四舍五入保留两位小数)。
答案: 【3182.08

15、 问题:所有有效访问中最长逗留时间是        秒。
答案: 【21774

16、 问题:所有有效访问中最短逗留时间是         秒。
答案: 【0

17、 问题:所有有效访问中相邻两次用户主动发起页面请求的平均时间是        秒(四舍五入保留两位小数)。
答案: 【794.20

18、 问题:若从用户主动发起的页面请求网页文件名中抽取顶层目录名称(即网页文件名中前置的/.*/部分),则不同的顶层目录名称一共有          个。
答案: 【8

19、 问题:涉及访问个数最多的顶层目录名称是          (名称中不要出现前后的/符号)。
答案: 【humour

20、 问题:涉及访问个数最少的顶层目录名称是         (名称中不要出现前后的/符号)。
答案: 【musical

第5章 网站数据分析 课程知识点综合训练

1、 问题:下面哪种技术不是Web智能的核心技术?
选项:
A:Web平台维护
B:Web知识表示与推理
C:Web知识发现
D:Web数据挖掘

本门课程剩余章节答案为付费内容
本文章不含期末不含主观题!!
本文章不含期末不含主观题!!
支付后可长期查看
有疑问请添加客服QQ 2356025045反馈
如遇卡顿看不了请换个浏览器即可打开
请看清楚了再购买哦,电子资源购买后不支持退款哦

   

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注