图书介绍
搜索引擎 信息检索实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)W.BruceCroft著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111288084
- 出版时间:2010
- 标注页数:309页
- 文件大小:33MB
- 文件页数:320页
- 主题词:互联网络-情报检索
PDF下载
下载说明
搜索引擎 信息检索实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 搜索引擎和信息检索1
1.1 什么是信息检索1
1.2 重要问题2
1.3 搜索引擎4
1.4 搜索工程师5
参考文献和深入阅读6
练习6
第2章 搜索引擎的架构8
2.1 什么是软件架构8
2.2 基本的构件8
2.3 组件及其功能10
2.3.1 文本采集10
2.3.2 文本转换12
2.3.3 索引的创建13
2.3.4 用户交互14
2.3.5 排序15
2.3.6 评价16
2.4 搜索引擎是如何工作的17
参考文献和深入阅读17
练习17
第3章 信息采集和信息源18
3.1 确定搜索的内容18
3.2 网络信息爬取18
3.2.1 抓取网页19
3.2.2 网络爬虫20
3.2.3 时新性22
3.2.4 面向主题的信息采集24
3.2.5 深层网络24
3.2.6 网站地图25
3.2.7 分布式信息采集26
3.3 文档和电子邮件的信息采集27
3.4 文档信息源28
3.5 转换问题30
3.6 存储文档31
3.6.1 使用数据库系统32
3.6.2 随机存取32
3.6.3 压缩和大规模文件33
3.6.4 更新34
3.6.5 BigTable35
3.7 重复检测36
3.8 去除噪声39
参考文献和深入阅读42
练习43
第4章 文本处理45
4.1 从词到词项45
4.2 文本统计46
4.2.1 词表增长49
4.2.2 估计数据集和结果集大小51
4.3 文档解析53
4.3.1 概述53
4.3.2 词素切分53
4.3.3 停用词去除55
4.3.4 词干提取55
4.3.5 短语和n元串59
4.4 文档结构和标记62
4.5 链接分析63
4.5.1 锚文本64
4.5.2 PageRank64
4.5.3 链接质量68
4.6 信息抽取69
4.7 国际化72
参考文献和深入阅读73
练习74
第5章 基于索引的相关排序76
5.1 概述76
5.2 抽象的相关排序模型76
5.3 倒排索引78
5.3.1 文档79
5.3.2 计数81
5.3.3 位置82
5.3.4 域与范围83
5.3.5 分数84
5.3.6 排列85
5.4 压缩85
5.4.1 熵与歧义86
5.4.2 Delta编码87
5.4.3 位对齐码88
5.4.4 字节对齐码90
5.4.5 实际应用中的压缩90
5.4.6 展望91
5.4.7 跳转和跳转指针92
5.5 辅助结构93
5.6 索引构建94
5.6.1 简单构建94
5.6.2 融合95
5.6.3 并行与分布式96
5.6.4 更新99
5.7 查询处理99
5.7.1 document-at-a-time评价100
5.7.2 term-at-a-time评价101
5.7.3 优化技术102
5.7.4 结构化查询107
5.7.5 分布式的评价108
5.7.6 缓存109
参考文献和深入阅读109
练习110
第6章 查询与界面113
6.1 信息需求与查询113
6.2 查询转换与提炼114
6.2.1 停用词去除和词干提取114
6.2.2 拼写检查和建议117
6.2.3 查询扩展121
6.2.4 相关反馈126
6.2.5 上下文和个性化128
6.3 搜索结果显示130
6.3.1 搜索结果页面与页面摘要130
6.3.2 广告与搜索132
6.3.3 结果聚类134
6.4 跨语言搜索137
参考文献和深入阅读139
练习140
第7章 检索模型142
7.1 检索模型概述142
7.1.1 布尔检索143
7.1.2 向量空间模型144
7.2 概率模型148
7.2.1 将信息检索作为分类问题148
7.2.2 BM25排序算法151
7.3 基于排序的语言模型153
7.3.1 查询项似然排序154
7.3.2 相关性模型和伪相关反馈158
7.4 复杂查询和证据整合162
7.4.1 推理网络模型163
7.4.2 Galago查询语言165
7.5 网络搜索169
7.6 机器学习和信息检索171
7.6.1 排序学习172
7.6.2 主题模型和词汇不匹配174
7.7 基于应用的模型175
参考文献和深入阅读176
练习178
第8章 搜索引擎评价179
8.1 搜索引擎评价的意义179
8.2 评价语料180
8.3 日志184
8.4 效果评价186
8.4.1 召回率和准确率186
8.4.2 平均化和插值189
8.4.3 关注排序靠前的文档192
8.4.4 使用用户偏好194
8.5 效率评价195
8.6 训练、测试和统计196
8.6.1 显著性检验196
8.6.2 设置参数值200
8.6.3 在线测试201
8.7 基本要点201
参考文献和深入阅读203
练习203
第9章 分类和聚类205
9.1 分类206
9.1.1 朴素贝叶斯207
9.1.2 支持向量机212
9.1.3 评价216
9.1.4 分类器和特征选择216
9.1.5 垃圾、情感及在线广告219
9.2 聚类224
9.2.1 层次聚类和K均值聚类225
9.2.2 K近邻聚类231
9.2.3 评价232
9.2.4 如何选择K233
9.2.5 聚类和搜索234
参考文献和深入阅读236
练习236
第10章 社会化搜索238
10.1 什么是社会化搜索238
10.2 用户标签和人工索引239
10.2.1 搜索标签241
10.2.2 推测缺失的标签242
10.2.3 浏览和标签云243
10.3 社区内搜索244
10.3.1 什么是社区244
10.3.2 社区发现245
10.3.3 基于社区的问答248
10.3.4 协同搜索251
10.4 过滤和推荐253
10.4.1 文档过滤253
10.4.2 协同过滤258
10.5 P2P搜索和元搜索262
10.5.1 分布式搜索262
10.5.2 P2P网络264
参考文献和深入阅读267
练习268
第11章 超越词袋270
11.1 概述270
11.2 基于特征的检索模型270
11.3 词项依赖模型271
11.4 再谈结构化275
11.4.1 XML检索276
11.4.2 实体搜索277
11.5 问题越长,答案越好278
11.6 词语、图片和音乐281
11.7 搜索能否适用于所有情况286
参考文献和深入阅读287
练习289
参考文献290
热门推荐
- 2651011.html
- 2185010.html
- 2721276.html
- 3595077.html
- 2633177.html
- 1022701.html
- 1871494.html
- 2716404.html
- 2369832.html
- 1305957.html
- http://www.ickdjs.cc/book_191842.html
- http://www.ickdjs.cc/book_2121080.html
- http://www.ickdjs.cc/book_3366401.html
- http://www.ickdjs.cc/book_1966620.html
- http://www.ickdjs.cc/book_871775.html
- http://www.ickdjs.cc/book_2981791.html
- http://www.ickdjs.cc/book_613446.html
- http://www.ickdjs.cc/book_1888082.html
- http://www.ickdjs.cc/book_1938858.html
- http://www.ickdjs.cc/book_49454.html