图书介绍
Web数据挖掘 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)刘兵著;俞勇等译 著
- 出版社: 北京:清华大学出版社
- ISBN:7302298700
- 出版时间:2009
- 标注页数:434页
- 文件大小:132MB
- 文件页数:450页
- 主题词:
PDF下载
下载说明
Web数据挖掘 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述1
1.1什么是万维网1
1.2万维网和互联网的历史简述2
1.3 Web数据挖掘3
1.3.1什么是数据挖掘4
1.3.2什么是Web数据挖掘5
1.4各章概要6
1.5如何阅读本书8
文献评注9
参考文献9
第1部分 数据挖掘基础13
第2章 关联规则和序列模式13
2.1关联规则的基本概念13
2.2 Apriori算法15
2.2.1频繁项目集生成15
2.2.2关联规则生成18
2.3关联规则挖掘的数据格式20
2.4多最小支持度的关联21
规则挖掘21
2.4.1扩展模型22
2.4.2挖掘算法23
2.4.3规则生成27
2.5分类关联规则挖掘28
2.5.1问题描述28
2.5.2挖掘算法29
2.5.3多最小支持度分类关联规则挖掘31
2.6序列模式的基本概念32
2.7基于GSP挖掘序列模式34
2.7.1 GSP算法34
2.7.2多最小支持度挖掘35
2.8基于PrefixSpan算法的38
序列模式挖掘38
2.8.1 PrefixSpan算法39
2.8.2多最小支持度挖掘40
2.9从序列模式中产生规则42
2.9.1序列规则42
2.9.2标签序列规则42
2.9.3分类序列规则43
文献评注43
参考文献45
第3章 监督学习49
3.1基本概念49
3.2决策树归纳52
3.2.1学习算法53
3.2.2混杂度函数54
3.2.3处理连续属性57
3.2.4其他一些问题58
3.3评估分类器60
3.3.1评估方法61
3.3.2查准率、查全率、F-score和平衡点(Breakeven Point)62
3.3.3受试者工作特征曲线63
3.3.4提升曲线65
3.4规则归纳66
3.4.1顺序化覆盖66
3.4.2规则学习:Lea-One-Rule函数68
3.4.3讨论70
3.5基于关联规则的分类71
3.5.1使用类关联规则进行分类71
3.5.2使用类关联规则作为分类属性74
3.5.3使用古典的关联规则分类74
3.6朴素贝叶斯分类75
3.7朴素贝叶斯文本分类78
3.7.1概率框架78
3.7.2朴素贝叶斯模型79
3.7.3讨论81
3.8支持向量机81
3.8.1线性支持向量机:可分的情况82
3.8.2线性支持向量机:数据不可分的情况86
3.8.3非线性支持向量机:核方法88
总结90
3.9 k-近邻学习91
3.10分类器的集成92
3.10.1 Bagging92
3.10.2 Boosting92
文献评注93
参考文献94
第4章 无监督学习98
4.1基本概念98
4.2 k-均值聚类100
4.2.1 k-均值算法100
4.2.2 k-均值算法的硬盘版本102
4.2.3优势和劣势102
4.3聚类的表示105
4.3.1聚类的一般表示方法106
4.3.2任意形状的聚类106
4.4层次聚类107
4.4.1单连结方法108
4.4.2全连结方法108
4.4.3平均连结方法109
4.4.4优势和劣势109
4.5距离函数110
4.5.1数字属性110
4.5.2布尔属性和名词性属性110
4.5.3文本文档112
4.6数据标准化112
4.7混合属性的处理114
4.8采用哪种聚类算法115
4.9聚类的评估115
4.10发现数据区域和数据空洞118
文献评注119
参考文献121
第5章 部分监督学习124
5.1从已标注数据和无标注124
数据中学习124
5.1.1使用朴素贝叶斯分类器的EM算法125
5.1.2 Co-Training128
5.1.3自学习129
5.1.4直推式支持向量机130
5.1.5基于图的方法131
5.1.6讨论133
5.2从正例和无标注数据中学习133
5.2.1 PU学习的应用134
5.2.2理论基础135
5.2.3建立分类器:两步方法137
5.2.4建立分类器:偏置SVM142
5.2.5建立分类器:概率估计144
5.2.6讨论145
附录:朴素贝叶斯EM算法的推导145
文献评注147
参考文献148
第2部分 Web挖掘153
第6章 信息检索与Web搜索153
6.1信息检索中的基本概念154
6.2信息检索模型156
6.2.1布尔模型156
6.2.2向量空间模型157
6.2.3统计语言模型159
6.3关联性反馈160
6.4评估标准162
6.5文本和网页的预处理164
6.5.1无用词移除165
6.5.2词干提取165
6.5.3其他文本预处理步骤165
6.5.4网页预处理步骤166
6.5.5副本探测167
6.6倒排索引及其压缩168
6.6.1倒排索引168
6.6.2使用倒排索引搜索169
6.6.3索引的建立170
6.6.4索引的压缩171
6.7隐式语义索引175
6.7.1奇异值分解(singular value decomposition)176
6.7.2查询和检索177
6.7.3实例178
6.7.4讨论181
6.8 Web搜索181
6.9元搜索引擎和组合多种排序183
6.9.1使用相似度分数的合并184
6.9.2使用排名位置的合并184
6.10网络作弊186
6.10.1内容作弊187
6.10.2链接作弊187
6.10.3隐藏技术188
6.10.4抵制作弊189
文献评注190
参考文献191
第7章 社会网络分析195
7.1社会网络分析196
7.1.1中心性196
7.1.2权威198
7.2同引分析和引文耦合199
7.2.1同引分析200
7.2.2引文耦合200
7.3 PageRank201
7.3.1 PageRank算法201
7.3.2 PageRank算法的优点和缺点207
7.3.3 Timed PageRank和Recency Search207
7.4 HITS208
7.4.1 HITS算法209
7.4.2寻找其他的特征向量211
7.4.3同引分析和引文耦合的关系211
7.4.4 HITS算法的优点和缺点212
7.5社区发现213
7.5.1问题定义213
7.5.2二分核心社区215
7.5.3最大流社区216
7.5.4基于中介性的电子邮件社区218
7.5.5命名实体的重叠社区219
文献评注220
参考文献220
第8章 Web爬取225
8.1一个简单爬虫算法225
8.1.1宽度优先爬虫227
8.1.2带偏好的爬虫227
8.2实现议题228
8.2.1网页获取228
8.2.2网页解析228
8.2.3删除无用词并提取词干230
8.2.4链接提取和规范化230
8.2.5爬虫陷阱232
8.2.6网页库232
8.2.7并发性233
8.3通用爬虫234
8.3.1可扩展性234
8.3.2覆盖度、新鲜度和重要度235
8.4限定爬虫236
8.5主题爬虫238
8.5.1主题本地性和线索240
8.5.2最优优先变种243
8.5.3自适应246
8.6评价标准249
8.7爬虫道德和冲突253
8.8最新进展255
文献评注256
参考文献257
第9章 结构化数据抽取:包装器生成261
9.1预备知识261
9.1.1两种富含数据的网页262
9.1.2数据模型263
9.1.3数据实例的HTML标记编码265
9.2包装器归纳266
9.2.1从一张网页抽取267
9.2.2学习抽取规则269
9.2.3识别提供信息的样例272
9.2.4包装器维护273
9.3基于实例的包装器学习273
9.4自动包装器生成中的一些问题276
9.4.1两个抽取问题276
9.4.2作为正则表达式的模式277
9.5字符串匹配和树匹配277
9.5.1字符串编辑距离278
9.5.2树匹配279
9.6多重对齐282
9.6.1中星方法283
9.6.2部分树对齐284
9.7构建DOM树287
9.8基于列表页的抽取:平坦数据记录288
9.8.1有关数据记录的两个观察结果289
9.8.2挖掘数据区域290
9.8.3从数据区域中识别数据记录294
9.8.4数据项对齐与抽取294
9.8.5利用视觉信息295
9.8.6一些其他技术295
9.9基于列表页的抽取:嵌套数据记录296
9.10基于多张网页的抽取301
9.10.1采用前几节中的技术301
9.10.2 RoadRunner算法301
9.11一些其他问题303
9.11.1从其他网页中抽取303
9.11.2析取还是可选303
9.11.3集合类型还是元组类型304
9.11.4标注与整合304
9.11.5领域相关的抽取305
9.12讨论305
文献评注305
参考文献306
第10章 信息集成310
10.1什么是模式匹配310
10.2模式匹配的预处理工作312
10.3模式层的匹配313
10.3.1基于语言学的算法313
10.3.2基于模式约束的算法314
10.4基于域和实例层的匹配315
10.5综合多种相似度317
10.6 1:m匹配317
10.7一些其他问题318
10.7.1重用已有的匹配结果318
10.7.2大量模式的匹配319
10.7.3模式匹配的结果319
10.7.4用户交互320
10.8 Web查询界面的集成320
10.8.1一个基于聚类的方法322
10.8.2基于相互关系的方法324
10.8.3基于实例的方法326
10.9构建一个统一的全局328
查询界面328
10.9.1结构恰当和合并算法328
10.9.2词汇恰当330
10.9.3实例恰当331
文献评注331
参考文献331
第11章 观点挖掘与情感分析335
11.1观点挖掘问题335
11.1.1问题定义336
11.1.2基于方面的观点摘要340
11.2文本情感分类341
11.2.1基于监督学习的分类342
11.2.2基于无监督学习的分类343
11.3句子主观性与情感分类345
11.4观点词汇扩展347
11.5基于方面的观点挖掘349
11.5.1基于方面的情感分类349
11.5.2观点的基本规则351
11.5.3方面抽取353
11.5.4同时扩展观点词汇和抽取方面355
11.6比较性观点挖掘358
11.6.1问题定义358
11.6.2等级比较性语句的识别360
11.6.3偏好实体识别360
11.7其他的一些问题362
11.8观点搜索365
11.9观点欺诈检测367
11.9.1观点欺诈的目标和行为367
11.9.2隐藏技巧368
11.9.3基于监督学习的欺诈检测369
11.9.4基于异常行为的欺诈检测370
11.9.5群组欺诈检测372
11.10评论的效用372
文献评注373
参考文献374
第12章 Web使用挖掘384
12.1数据收集和预处理385
12.1.1数据的来源和类型385
12.1.2 Web使用记录数据预处理的关键元素388
12.2 Web使用挖掘的数据建模392
12.3 Web使用模式的发现和分析395
12.3.1会话和访问者分析395
12.3.2聚类分析和访问者分割396
12.3.3关联及相关度分析399
12.3.4序列和导航模式分析399
12.3.5基于Web用户事务的分类和预测402
12.4推荐系统和协同过滤402
12.4.1推荐问题402
12.4.2基于内容的推荐403
12.4.3协同过滤:k-近邻(kNN)404
12.4.4协同过滤:使用关联规则406
12.4.5协同过滤:矩阵分解408
12.5查询日志挖掘412
12.5.1数据源、特征和挑战413
12.5.2查询日志数据准备414
12.5.3查询日志数据模型416
12.5.4查询日志特征提取419
12.5.5查询日志挖掘应用419
12.5.6查询日志挖掘方法421
12.6计算广告学423
12.7讨论和展望426
文献评注426
参考文献427
热门推荐
- 3074942.html
- 526867.html
- 3608892.html
- 456496.html
- 2898605.html
- 2196889.html
- 1664761.html
- 1694782.html
- 1466674.html
- 1087232.html
- http://www.ickdjs.cc/book_1051224.html
- http://www.ickdjs.cc/book_3220474.html
- http://www.ickdjs.cc/book_3270956.html
- http://www.ickdjs.cc/book_2314618.html
- http://www.ickdjs.cc/book_3603829.html
- http://www.ickdjs.cc/book_309532.html
- http://www.ickdjs.cc/book_165914.html
- http://www.ickdjs.cc/book_980940.html
- http://www.ickdjs.cc/book_1945951.html
- http://www.ickdjs.cc/book_623986.html