图书介绍

Web数据挖掘第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）刘兵著；俞勇等译著
出版社：北京：清华大学出版社
ISBN：7302298700
出版时间：2009
标注页数：434页
文件大小：132MB
文件页数：450页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：2411b93fe5f1f8898af5225985fc92d6

下载说明

Web数据挖掘第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章概述1

1.1什么是万维网1

1.2万维网和互联网的历史简述2

1.3 Web数据挖掘3

1.3.1什么是数据挖掘4

1.3.2什么是Web数据挖掘5

1.4各章概要6

1.5如何阅读本书8

文献评注9

参考文献9

第1部分数据挖掘基础13

第2章关联规则和序列模式13

2.1关联规则的基本概念13

2.2 Apriori算法15

2.2.1频繁项目集生成15

2.2.2关联规则生成18

2.3关联规则挖掘的数据格式20

2.4多最小支持度的关联21

规则挖掘21

2.4.1扩展模型22

2.4.2挖掘算法23

2.4.3规则生成27

2.5分类关联规则挖掘28

2.5.1问题描述28

2.5.2挖掘算法29

2.5.3多最小支持度分类关联规则挖掘31

2.6序列模式的基本概念32

2.7基于GSP挖掘序列模式34

2.7.1 GSP算法34

2.7.2多最小支持度挖掘35

2.8基于PrefixSpan算法的38

序列模式挖掘38

2.8.1 PrefixSpan算法39

2.8.2多最小支持度挖掘40

2.9从序列模式中产生规则42

2.9.1序列规则42

2.9.2标签序列规则42

2.9.3分类序列规则43

文献评注43

参考文献45

第3章监督学习49

3.1基本概念49

3.2决策树归纳52

3.2.1学习算法53

3.2.2混杂度函数54

3.2.3处理连续属性57

3.2.4其他一些问题58

3.3评估分类器60

3.3.1评估方法61

3.3.2查准率、查全率、F-score和平衡点（Breakeven Point）62

3.3.3受试者工作特征曲线63

3.3.4提升曲线65

3.4规则归纳66

3.4.1顺序化覆盖66

3.4.2规则学习：Lea-One-Rule函数68

3.4.3讨论70

3.5基于关联规则的分类71

3.5.1使用类关联规则进行分类71

3.5.2使用类关联规则作为分类属性74

3.5.3使用古典的关联规则分类74

3.6朴素贝叶斯分类75

3.7朴素贝叶斯文本分类78

3.7.1概率框架78

3.7.2朴素贝叶斯模型79

3.7.3讨论81

3.8支持向量机81

3.8.1线性支持向量机：可分的情况82

3.8.2线性支持向量机：数据不可分的情况86

3.8.3非线性支持向量机：核方法88

总结90

3.9 k-近邻学习91

3.10分类器的集成92

3.10.1 Bagging92

3.10.2 Boosting92

文献评注93

参考文献94

第4章无监督学习98

4.1基本概念98

4.2 k-均值聚类100

4.2.1 k-均值算法100

4.2.2 k-均值算法的硬盘版本102

4.2.3优势和劣势102

4.3聚类的表示105

4.3.1聚类的一般表示方法106

4.3.2任意形状的聚类106

4.4层次聚类107

4.4.1单连结方法108

4.4.2全连结方法108

4.4.3平均连结方法109

4.4.4优势和劣势109

4.5距离函数110

4.5.1数字属性110

4.5.2布尔属性和名词性属性110

4.5.3文本文档112

4.6数据标准化112

4.7混合属性的处理114

4.8采用哪种聚类算法115

4.9聚类的评估115

4.10发现数据区域和数据空洞118

文献评注119

参考文献121

第5章部分监督学习124

5.1从已标注数据和无标注124

数据中学习124

5.1.1使用朴素贝叶斯分类器的EM算法125

5.1.2 Co-Training128

5.1.3自学习129

5.1.4直推式支持向量机130

5.1.5基于图的方法131

5.1.6讨论133

5.2从正例和无标注数据中学习133

5.2.1 PU学习的应用134

5.2.2理论基础135

5.2.3建立分类器：两步方法137

5.2.4建立分类器：偏置SVM142

5.2.5建立分类器：概率估计144

5.2.6讨论145

附录：朴素贝叶斯EM算法的推导145

文献评注147

参考文献148

第2部分 Web挖掘153

第6章信息检索与Web搜索153

6.1信息检索中的基本概念154

6.2信息检索模型156

6.2.1布尔模型156

6.2.2向量空间模型157

6.2.3统计语言模型159

6.3关联性反馈160

6.4评估标准162

6.5文本和网页的预处理164

6.5.1无用词移除165

6.5.2词干提取165

6.5.3其他文本预处理步骤165

6.5.4网页预处理步骤166

6.5.5副本探测167

6.6倒排索引及其压缩168

6.6.1倒排索引168

6.6.2使用倒排索引搜索169

6.6.3索引的建立170

6.6.4索引的压缩171

6.7隐式语义索引175

6.7.1奇异值分解（singular value decomposition）176

6.7.2查询和检索177

6.7.3实例178

6.7.4讨论181

6.8 Web搜索181

6.9元搜索引擎和组合多种排序183

6.9.1使用相似度分数的合并184

6.9.2使用排名位置的合并184

6.10网络作弊186

6.10.1内容作弊187

6.10.2链接作弊187

6.10.3隐藏技术188

6.10.4抵制作弊189

文献评注190

参考文献191

第7章社会网络分析195

7.1社会网络分析196

7.1.1中心性196

7.1.2权威198

7.2同引分析和引文耦合199

7.2.1同引分析200

7.2.2引文耦合200

7.3 PageRank201

7.3.1 PageRank算法201

7.3.2 PageRank算法的优点和缺点207

7.3.3 Timed PageRank和Recency Search207

7.4 HITS208

7.4.1 HITS算法209

7.4.2寻找其他的特征向量211

7.4.3同引分析和引文耦合的关系211

7.4.4 HITS算法的优点和缺点212

7.5社区发现213

7.5.1问题定义213

7.5.2二分核心社区215

7.5.3最大流社区216

7.5.4基于中介性的电子邮件社区218

7.5.5命名实体的重叠社区219

文献评注220

参考文献220

第8章 Web爬取225

8.1一个简单爬虫算法225

8.1.1宽度优先爬虫227

8.1.2带偏好的爬虫227

8.2实现议题228

8.2.1网页获取228

8.2.2网页解析228

8.2.3删除无用词并提取词干230

8.2.4链接提取和规范化230

8.2.5爬虫陷阱232

8.2.6网页库232

8.2.7并发性233

8.3通用爬虫234

8.3.1可扩展性234

8.3.2覆盖度、新鲜度和重要度235

8.4限定爬虫236

8.5主题爬虫238

8.5.1主题本地性和线索240

8.5.2最优优先变种243

8.5.3自适应246

8.6评价标准249

8.7爬虫道德和冲突253

8.8最新进展255

文献评注256

参考文献257

第9章结构化数据抽取：包装器生成261

9.1预备知识261

9.1.1两种富含数据的网页262

9.1.2数据模型263

9.1.3数据实例的HTML标记编码265

9.2包装器归纳266

9.2.1从一张网页抽取267

9.2.2学习抽取规则269

9.2.3识别提供信息的样例272

9.2.4包装器维护273

9.3基于实例的包装器学习273

9.4自动包装器生成中的一些问题276

9.4.1两个抽取问题276

9.4.2作为正则表达式的模式277

9.5字符串匹配和树匹配277

9.5.1字符串编辑距离278

9.5.2树匹配279

9.6多重对齐282

9.6.1中星方法283

9.6.2部分树对齐284

9.7构建DOM树287

9.8基于列表页的抽取：平坦数据记录288

9.8.1有关数据记录的两个观察结果289

9.8.2挖掘数据区域290

9.8.3从数据区域中识别数据记录294

9.8.4数据项对齐与抽取294

9.8.5利用视觉信息295

9.8.6一些其他技术295

9.9基于列表页的抽取：嵌套数据记录296

9.10基于多张网页的抽取301

9.10.1采用前几节中的技术301

9.10.2 RoadRunner算法301

9.11一些其他问题303

9.11.1从其他网页中抽取303

9.11.2析取还是可选303

9.11.3集合类型还是元组类型304

9.11.4标注与整合304

9.11.5领域相关的抽取305

9.12讨论305

文献评注305

参考文献306

第10章信息集成310

10.1什么是模式匹配310

10.2模式匹配的预处理工作312

10.3模式层的匹配313

10.3.1基于语言学的算法313

10.3.2基于模式约束的算法314

10.4基于域和实例层的匹配315

10.5综合多种相似度317

10.6 1：m匹配317

10.7一些其他问题318

10.7.1重用已有的匹配结果318

10.7.2大量模式的匹配319

10.7.3模式匹配的结果319

10.7.4用户交互320

10.8 Web查询界面的集成320

10.8.1一个基于聚类的方法322

10.8.2基于相互关系的方法324

10.8.3基于实例的方法326

10.9构建一个统一的全局328

查询界面328

10.9.1结构恰当和合并算法328

10.9.2词汇恰当330

10.9.3实例恰当331

文献评注331

参考文献331

第11章观点挖掘与情感分析335

11.1观点挖掘问题335

11.1.1问题定义336

11.1.2基于方面的观点摘要340

11.2文本情感分类341

11.2.1基于监督学习的分类342

11.2.2基于无监督学习的分类343

11.3句子主观性与情感分类345

11.4观点词汇扩展347

11.5基于方面的观点挖掘349

11.5.1基于方面的情感分类349

11.5.2观点的基本规则351

11.5.3方面抽取353

11.5.4同时扩展观点词汇和抽取方面355

11.6比较性观点挖掘358

11.6.1问题定义358

11.6.2等级比较性语句的识别360

11.6.3偏好实体识别360

11.7其他的一些问题362

11.8观点搜索365

11.9观点欺诈检测367

11.9.1观点欺诈的目标和行为367

11.9.2隐藏技巧368

11.9.3基于监督学习的欺诈检测369

11.9.4基于异常行为的欺诈检测370

11.9.5群组欺诈检测372

11.10评论的效用372

文献评注373

参考文献374

第12章 Web使用挖掘384

12.1数据收集和预处理385

12.1.1数据的来源和类型385

12.1.2 Web使用记录数据预处理的关键元素388

12.2 Web使用挖掘的数据建模392

12.3 Web使用模式的发现和分析395

12.3.1会话和访问者分析395

12.3.2聚类分析和访问者分割396

12.3.3关联及相关度分析399

12.3.4序列和导航模式分析399

12.3.5基于Web用户事务的分类和预测402

12.4推荐系统和协同过滤402

12.4.1推荐问题402

12.4.2基于内容的推荐403

12.4.3协同过滤：k-近邻（kNN）404

12.4.4协同过滤：使用关联规则406

12.4.5协同过滤：矩阵分解408

12.5查询日志挖掘412

12.5.1数据源、特征和挑战413

12.5.2查询日志数据准备414

12.5.3查询日志数据模型416

12.5.4查询日志特征提取419

12.5.5查询日志挖掘应用419

12.5.6查询日志挖掘方法421

12.6计算广告学423

12.7讨论和展望426

文献评注426

参考文献427

图书介绍

Web数据挖掘 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

PDF下载

下载说明

Web数据挖掘 第2版PDF格式电子书版下载

图书目录

热门推荐

Web数据挖掘第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Web数据挖掘第2版PDF格式电子书版下载