图书介绍

搜索引擎原理、实践与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

搜索引擎原理、实践与应用
  • 卢亮,张博文编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:7121048108
  • 出版时间:2007
  • 标注页数:291页
  • 文件大小:36MB
  • 文件页数:305页
  • 主题词:互联网络-情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

搜索引擎原理、实践与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搜索引擎的历史和现状1

1.1 搜索引擎的历史1

1.2 搜索引擎的分类4

1.3 搜索引擎的现状6

1.4 世界主要搜索引擎介绍7

1.4.1 Google7

1.4.2 百度10

1.4.3 Technorati11

1.4.4 Alltheweb12

1.4.5 Ask.com13

1.4.6 MSN Search14

小结15

参考文献15

第2章 数据挖掘17

2.1 数据挖掘概览17

2.1.1 为什么要做数据挖掘19

2.1.2 数据挖掘的任务20

2.1.3 关联挖掘和分析21

2.1.4 分类21

2.1.5 聚类分析23

2.1.6 序列模式分析24

2.1.7 偏差分析24

2.2 数据挖掘的常用技术25

2.2.1 人工神经网络25

2.2.2 统计分析26

小结27

参考文献27

第3章 搜索引擎的数据结构29

3.1 存储结构29

3.1.1 四种基本存储方法30

3.2 索引33

3.2.1 倒排索引33

3.3 结构化查询语言36

3.4 海量数据系统38

小结39

参考文献39

第4章 搜索引擎的基本结构40

4.1 网络爬虫41

4.2 排序43

4.2.1 网页的权重43

4.2.2 向量空间模型VSM44

4.2.3 扩展相关信息46

4.3 索引系统49

4.4 缓存机制55

小结55

参考文献56

第5章 搜索引擎爬虫57

5.1 深度优先与广度优先58

5.1.1 网页链接情况概览58

5.1.2 取得有效的网页文字59

5.1.3 深度优先61

5.1.4 广度优先63

5.2 实例——Larbin65

5.2.1 Larbin简介65

5.2.2 Larbin的作用66

5.2.3 Larbin的使用66

5.2.4 Larbin的性能特征68

小结68

参考文献69

第6章 搜索引擎索引系统70

6.1 索引结构70

6.2 使用直接I/O提高文件扫描性能75

6.3 倒排表合并策略78

6.4 利用内存临时索引技术实现即时搜索81

6.5 对正排文件进行压缩减少磁盘占用82

6.6 实例——Lucene83

6.6.1 Lucene的原理84

6.6.2 对多个字段进行联合检索92

6.6.3 对索引进行优化93

6.6.4 利用RangeQuery进行范围查询94

6.6.5 组合查询95

6.6.6 多个索引进行联合搜索96

6.7 实例——Booso.com98

小结111

参考文献111

第7章 分布式搜索引擎设计112

7.1 分布式搜索引擎的核心问题112

7.2 分布式元搜索引擎113

7.3 散列式分布搜索引擎120

7.3.1 散列式分布搜索引擎原理121

7.3.2 对散列式分布搜索引擎的改进129

7.3.3 散列式分布搜索引擎的缺陷131

7.4 索引与文档的分开存放132

7.4.1 文档服务器的设计134

7.4.2 文档服务器的分布式处理135

7.5 对分布式结构建立缓存机制137

7.6 混合分布式搜索引擎139

7.7 分布式搜索引擎的扩展性142

7.7.1 一种实用的节点动态调整方案143

7.8 P2P分布搜索引擎146

7.9 局部遍历型搜索引擎150

小结152

参考文献153

第8章 Google搜索引擎的结构155

8.1 Google要解决的问题155

8.2 Google的分布式设计157

8.3 Google文件系统161

8.4 MapReduce166

8.5 BigTable171

8.6 相关搜索的实现176

小结176

参考文献177

第9章 中文分词178

9.1 中文信息的特征178

9.2 搜索引擎的分词179

9.3 分词的方法180

9.3.1 正向最大匹配分词181

9.3.2 逆向最大匹配分词185

9.4 基于统计的分词方法187

9.5 其他分词系统188

9.6 混合分词191

9.7 对分不出来的词的处理192

9.8 停止词训练方法194

9.9 实例——分词程序195

小结207

参考文献208

第10章 分类与聚类209

10.1 分类与聚类介绍209

10.1.1 自动分类209

10.1.2 自动聚类211

10.2 自动分类的原理211

10.2.1 自动分类技术概览211

10.2.2 矢量模型214

10.2.3 在多文档情况下的矢量模型的修正214

10.2.4 TF*IDF的修正215

10.2.5 基于位置的修正215

10.3 文本信息的噪声模型216

10.3.1 文本信息模型概览216

10.3.2 噪声模型216

10.3.3 噪声的提取217

10.4 分类的实验218

10.4.1 实施步骤218

10.4.2 样本与类向量219

10.4.3 分类实验的流程220

10.4.4 分类结果的输出221

10.5 利用层次聚类法实现文本自动聚类222

10.5.1 层次聚类技术222

10.5.2 实现步骤223

10.5.3 自动聚类实例224

小结226

参考文献226

第11章 内容消重和SPAM消除228

11.1 信息指纹229

11.2 内容消重230

11.3 Spam的识别和剔除232

11.3.1 一种简单实用的识别SPAM方法234

11.3.2 一个最大的spam案例237

小结238

参考文献239

第12章 图像搜索引擎241

12.1 简介241

12.2 图像的收集过程242

12.2.1 图像的发现243

12.2.2 图像的文件形式244

12.3 主题分类和索引245

12.3.1 文本处理245

12.3.2 图像的主题分类(Taxonomy)246

12.3.3 关键词表和目录名与主题的匹配247

12.4 搜索、浏览、挖掘248

12.5 基于图像内容的搜索技术249

12.5.1 色阶图的相似性250

12.5.2 自动图像归类251

12.5.3 相关反馈251

12.5.4 色阶图的调节252

12.6 基于图像内容的搜索实例252

12.6.1 Retrievr系统253

12.6.2 图像聚类的Booso算法255

12.6.3 一个图像处理的实例256

12.6.4 基于图像内容聚类的实现259

小结260

参考资料260

附录262

热门推荐