图书介绍

信息检索导论2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

信息检索导论
  • (美)曼宁,(美)拉哈万,(德)舒策著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115234247
  • 出版时间:2010
  • 标注页数:369页
  • 文件大小:30MB
  • 文件页数:388页
  • 主题词:情报检索-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

信息检索导论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 布尔检索1

1.1 一个信息检索的例子2

1.2 构建倒排索引的初体验5

1.3 布尔查询的处理8

1.4 对基本布尔操作的扩展及有序检索11

1.5 参考文献及补充读物13

第2章 词项词典及倒排记录表14

2.1 文档分析及编码转换14

2.1.1 字符序列的生成14

2.1.2 文档单位的选择16

2.2 词项集合的确定16

2.2.1 词条化16

2.2.2 去除停用词19

2.2.3 词项归一化20

2.2.4 词干还原和词形归并23

2.3 基于跳表的倒排记录表快速合并算法26

2.4 含位置信息的倒排记录表及短语查询28

2.4.1 二元词索引28

2.4.2 位置信息索引29

2.4.3 混合索引机制31

2.5 参考文献及补充读物32

第3章 词典及容错式检索34

3.1 词典搜索的数据结构34

3.2 通配符查询36

3.2.1 一般的通配符查询37

3.2.2 支持通配符查询的k-gram索引38

3.3 拼写校正39

3.3.1 拼写校正的实现39

3.3.2 拼写校正的方法40

3.3.3 编辑距离40

3.3.4 拼写校正中的k-gram索引42

3.3.5 上下文敏感的拼写校正43

3.4 基于发音的校正技术44

3.5 参考文献及补充读物45

第4章 索引构建46

4.1 硬件基础46

4.2 基于块的排序索引方法47

4.3 内存式单遍扫描索引构建方法50

4.4 分布式索引构建方法51

4.5 动态索引构建方法54

4.6 其他索引类型56

4.7 参考文献及补充读物57

第5章 索引压缩59

5.1 信息检索中词项的统计特性59

5.1.1 Heaps定律:词项数目的估计61

5.1.2 Zipf定律:对词项的分布建模62

5.2 词典压缩63

5.2.1 将词典看成单一字符串的压缩方法63

5.2.2 按块存储64

5.3 倒排记录表的压缩66

5.3.1 可变字节码67

5.3.2 γ编码68

5.4 参考文献及补充读物74

第6章 文档评分、词项权重计算及向量空间模型76

6.1 参数化索引及域索引76

6.1.1 域加权评分78

6.1.2 权重学习79

6.1.3 最优权重g的计算80

6.2 词项频率及权重计算81

6.2.1 逆文档频率81

6.2.2 tf-idf权重计算82

6.3 向量空间模型83

6.3.1 内积83

6.3.2 查询向量86

6.3.3 向量相似度计算87

6.4 其他tf-idf权重计算方法88

6.4.1 tf的亚线性尺度变换方法88

6.4.2 基于最大值的tf归一化88

6.4.3 文档权重和查询权重机制89

6.4.4 文档长度的回转归一化89

6.5 参考文献及补充读物92

第7章 一个完整搜索系统中的评分计算93

7.1 快速评分及排序93

7.1.1 非精确返回前K篇文档的方法94

7.1.2 索引去除技术94

7.1.3 胜者表95

7.1.4 静态得分和排序95

7.1.5 影响度排序96

7.1.6 簇剪枝方法97

7.2 信息检索系统的组成98

7.2.1 层次型索引98

7.2.2 查询词项的邻近性98

7.2.3 查询分析及文档评分函数的设计99

7.2.4 搜索系统的组成100

7.3 向量空间模型对各种查询操作的支持101

7.3.1 布尔查询101

7.3.2 通配符查询102

7.3.3 短语查询102

7.4 参考文献及补充读物102

第8章 信息检索的评价103

8.1 信息检索系统的评价103

8.2 标准测试集104

8.3 无序检索结果集合的评价105

8.4 有序检索结果的评价方法108

8.5 相关性判定112

8.6 更广的视角看评价:系统质量及用户效用115

8.6.1 系统相关问题115

8.6.2 用户效用115

8.6.3 对已有系统的改进116

8.7 结果片段116

8.8 参考文献及补充读物118

第9章 相关反馈及查询扩展120

9.1 相关反馈及伪相关反馈120

9.1.1 Rocchio相关反馈算法122

9.1.2 基于概率的相关反馈方法125

9.1.3 相关反馈的作用时机125

9.1.4 Web上的相关反馈126

9.1.5 相关反馈策略的评价127

9.1.6 伪相关反馈127

9.1.7 间接相关反馈128

9.1.8 小结128

9.2 查询重构的全局方法128

9.2.1 查询重构的词汇表工具128

9.2.2 查询扩展129

9.2.3 同义词词典的自动构建130

9.3 参考文献及补充读物131

第10章 XML检索133

10.1 XML的基本概念134

10.2 XML检索中的挑战性问题137

10.3 基于向量空间模型的XML检索140

10.4 XML检索的评价144

10.5 XML检索:以文本为中心与以数据为中心的对比146

10.6 参考文献及补充读物148

第11章 概率检索模型150

11.1 概率论基础知识150

11.2 概率排序原理151

11.2.1 1/0风险的情况151

11.2.2 基于检索代价的概率排序原理152

11.3 二值独立模型152

11.3.1 排序函数的推导153

11.3.2 理论上的概率估计方法155

11.3.3 实际中的概率估计方法156

11.3.4 基于概率的相关反馈方法157

11.4 概率模型的相关评论及扩展158

11.4.1 概率模型的评论158

11.4.2 词项之间的树型依赖159

11.4.3 Okapi BM25:一个非二值的模型160

11.4.4 IR中的贝叶斯网络方法161

11.5 参考文献及补充读物162

第12章 基于语言建模的信息检索模型163

12.1 语言模型163

12.1.1 有穷自动机和语言模型163

12.1.2 语言模型的种类165

12.1.3 词的多项式分布166

12.2 查询似然模型167

12.2.1 IR中的查询似然模型167

12.2.2 查询生成概率的估计167

12.2.3 Ponte和Croft进行的实验169

12.3 语言建模的方法与其他检索方法的比较171

12.4 扩展的LM方法172

12.5 参考文献及补充读物173

第13章 文本分类及朴素贝叶斯方法175

13.1 文本分类问题177

13.2 朴素贝叶斯文本分类178

13.3 贝努利模型182

13.4 NB的性质183

13.5 特征选择188

13.5.1 互信息188

13.5.2 x2统计量191

13.5.3 基于频率的特征选择方法192

13.5.4 多类问题的特征选择方法193

13.5.5 不同特征选择方法的比较193

13.6 文本分类的评价194

13.7 参考文献及补充读物199

第14章 基于向量空间模型的文本分类200

14.1 文档表示及向量空间中的关联度计算201

14.2 Rocchio分类方法202

14.3 k近邻分类器205

14.4 线性及非线性分类器209

14.5 多类问题的分类212

14.6 偏差-方差折中准则214

14.7 参考文献及补充读物219

第15章 支持向量机及文档机器学习方法221

15.1 二类线性可分条件下的支持向量机221

15.2 支持向量机的扩展226

15.2.1 软间隔分类226

15.2.2 多类情况下的支持向量机228

15.2.3 非线性支持向量机228

15.2.4 实验结果230

15.3 有关文本文档分类的考虑231

15.3.1 分类器类型的选择231

15.3.2 分类器效果的提高233

15.4 ad hoc检索中的机器学习方法236

15.4.1 基于机器学习评分的简单例子236

15.4.2 基于机器学习的检索结果排序238

15.5 参考文献及补充读物239

第16章 扁平聚类241

16.1 信息检索中的聚类应用242

16.2 问题描述244

16.3 聚类算法的评价246

16.4 K-均值算法248

16.5 基于模型的聚类254

16.6 参考文献及补充读物258

第17章 层次聚类260

17.1 凝聚式层次聚类260

17.2 单连接及全连接聚类算法263

17.3 组平均凝聚式聚类268

17.4 质心聚类269

17.5 层次凝聚式聚类的最优性270

17.6 分裂式聚类272

17.7 簇标签生成273

17.8 实施中的注意事项274

17.9 参考文献及补充读物275

第18章 矩阵分解及隐性语义索引277

18.1 线性代数基础277

18.2 词项-文档矩阵及SVD280

18.3 低秩逼近282

18.4 LSI284

18.5 参考文献及补充读物287

第19章 Web搜索基础289

19.1 背景和历史289

19.2 Web的特性290

19.2.1 Web图291

19.2.2 作弊网页293

19.3 广告经济模型294

19.4 搜索用户体验296

19.5 索引规模及其估计297

19.6 近似重复及shingling300

19.7 参考文献及补充读物303

第20章 Web采集及索引304

20.1 概述304

20.1.1 采集器必须提供的功能特点304

20.1.2 采集器应该提供的功能特点304

20.2 采集305

20.2.1 采集器架构305

20.2.2 DNS解析308

20.2.3 待采集URL池309

20.3 分布式索引311

20.4 连接服务器312

20.5 参考文献及补充读物314

第21章 链接分析316

21.1 Web图316

21.2 PageRank318

21.2.1 马尔科夫链318

21.2.2 PageRank的计算320

21.2.3 面向主题的PageRank322

21.3 Hub网页及Authority网页325

21.4 参考文献及补充读物329

参考文献331

索引356

热门推荐