图书介绍
相关性搜索 利用Solr与Elasticsearch创建智能应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)道格·特恩布尔(DougTurnbull),约翰·贝瑞曼(JohnBerryman)著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121327216
- 出版时间:2017
- 标注页数:366页
- 文件大小:52MB
- 文件页数:392页
- 主题词:搜索引擎-程序设计
PDF下载
下载说明
相关性搜索 利用Solr与Elasticsearch创建智能应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 搜索的相关性问题1
1.1 我们的目标:掌握相关性技术研发的技能2
1.2 为什么搜索的相关性如此之难3
1.2.1 什么是具备“相关性”的搜索结果4
1.2.2 搜索:没有银弹6
1.3 来自相关性研究的启示7
1.3.1 信息检索7
1.3.2 能否利用信息检索解决相关性问题9
1.4 如何解决相关性11
1.5 不只是技术:管理、协作与反馈13
1.6 本章小结16
第2章 搜索——幕后揭秘17
2.1 搜索10118
2.1.1 什么是搜索文档19
2.1.2 对内容进行搜索19
2.1.3 通过搜索来探索内容21
2.1.4 获取进入搜索引擎的内容21
2.2 搜索引擎的数据结构23
2.2.1 倒排索引23
2.2.2 倒排索引的其他内容25
2.3 对内容进行索引:提取、充实、分析和索引26
2.3.1 将内容提取为文档28
2.3.2 充实文档以清理、强化与合并数据28
2.3.3 执行分析29
2.3.4 索引33
2.4 文档的搜索和获取34
2.4.1 布尔搜索:AND/OR/NOT34
2.4.2 基于Lucene搜索的布尔查询(MUST/MUST_NOT/SHOULD)36
2.4.3 位置和短语匹配37
2.4.4 助力用户浏览:过滤、切面和聚合38
2.4.5 排序、结果排名,以及相关性39
2.5 本章小结42
第3章 调试我们的第一个相关性问题43
3.1 Solr和Elasticsearch的应用:基于Elasticsearch的例子44
3.2 最了不起的数据集:TMDB45
3.3 用Python语言编写的例子46
3.4 第一个搜索应用46
3.4.1 针对TMDB Elasticsearch索引的第一次搜索49
3.5 调试查询匹配52
3.5.1 检查底层查询策略53
3.5.2 剖析查询解析54
3.5.3 调试分析,解决匹配问题55
3.5.4 比较查询条件和倒排索引58
3.5.5 通过修改分析器来修正我们的匹配59
3.6 调试排名62
3.6.1 利用Lucene的解释功能来剖析相关性评价63
3.6.2 向量空间模型、相关性解释信息和我们68
3.6.3 向量空间模型在实践中的注意事项71
3.6.4 通过对匹配的评价来度量相关性72
3.6.5 用TF×IDF计算权重74
3.6.6 谎言、该死的谎言和相似度75
3.6.7 决定搜索词重要性的因素77
3.6.8 解决Space Jam和alien的排名问题78
3.7 问题解决了?工作永远做不完!80
3.8 本章小结81
第4章 驾驭token83
4.1 将token作为文档特征84
4.1.1 匹配的流程85
4.1.2 token,不只是单词85
4.2 控制查准率和查全率86
4.2.1 查准率和查全率的例子86
4.2.2 查准率或查全率的分析89
4.2.3 一味提高查全率93
4.3 查准率和查全率——让鱼和熊掌兼得95
4.3.1 评价单一字段中特征的强度95
4.3.2 超越TF×IDF的评价:多搜索词与多字段99
4.4 分析策略100
4.4.1 处理分隔符100
4.4.2 捕获同义词的语义103
4.4.3 在搜索中为专指性建模107
4.4.4 利用同义词为专指性建模107
4.4.5 利用路径为专指性建模110
4.4.6 对整个世界分词112
4.4.7 对整数分词112
4.4.8 对地理数据分词113
4.4.9 对歌曲分词115
4.5 本章小结118
第5章 多字段搜索基础119
5.1 信号及信号建模121
5.1.1 什么是信号121
5.1.2 从源数据模型开始122
5.1.3 实现信号125
5.1.4 信号建模:为数据的相关性建模126
5.2 TMDB——搜索,人类最后的边疆127
5.2.1 违反基本法则129
5.2.2 让嵌套文档扁平化129
5.3 在以字段为中心的搜索中给信号建模132
5.3.1 从best_fields开始136
5.3.2 控制搜索结果中的字段偏好139
5.3.3 可以使用信号更精准的best_fields吗141
5.3.4 让失败者分享荣耀:为best_fields校准144
5.3.5 利用most_fields统计多个信号147
5.3.6 在most_fields中缩放信号149
5.3.7 什么时候其他匹配才无关紧要151
5.3.8 有关most_fields的结论是什么152
5.4 本章小结153
第6章 以词为中心的搜索154
6.1 什么是以词为中心的搜索155
6.2 我们为什么需要以词为中心的搜索157
6.2.1 猎寻“白化象”157
6.2.2 在“星际迷航”的例子中寻找白化象问题160
6.2.3 避免信号冲突162
6.2.4 理解信号冲突的机理163
6.3 完成第一个以词为中心的搜索165
6.3.1 使用以词为中心的排名函数166
6.3.2 运行以词为中心的查询解析器(深入底层)169
6.3.3 理解字段同步170
6.3.4 字段同步和信号建模171
6.3.5 查询解析器和信号冲突172
6.3.6 对以词为中心的搜索进行调优174
6.4 在以词为中心的搜索中解决信号冲突176
6.4.1 将字段合并成自定义全字段177
6.4.2 利用cross_fields解决信号冲突181
6.5 结合以字段为中心和以词为中心的策略:鱼与熊掌兼得183
6.5.1 将“相似字段”分到一组183
6.5.2 理解相似字段的局限185
6.5.3 将贪婪的简单搜索和保守的放大器结合起来186
6.5.4 以词为中心与以字段为中心,查准率与查全率189
6.5.5 考虑过滤、放大,以及重新排名190
6.6 本章小结190
第7章 调整相关性函数192
7.1 何谓评价调整193
7.2 放大:通过突出结果来实现调整195
7.2.1 放大:最后的边疆195
7.2.2 放大时——选择加法运算还是乘法运算,布尔查询还是函数查询?197
7.2.3 选择第一扇门:利用布尔查询进行加法放大199
7.2.4 选择第二扇门:利用数学运算进行排名的函数查询202
7.2.5 函数查询实践:简单的乘法放大204
7.2.6 放大处理的基础:信号,处处是信号206
7.3 过滤:通过排除的方法对结果进行调整206
7.4 满足业务需求的评价调整策略208
7.4.1 搜索所有影片209
7.4.2 对放大信号进行建模211
7.4.3 构造排名函数:增加具有较高价值的层级215
7.4.4 利用函数查询对具有较高价值的层级进行评价219
7.4.5 忽略TF×IDF221
7.4.6 捕捉综合质量指标222
7.4.7 达成用户的时效性目标224
7.4.8 结合函数查询227
7.4.9 把一切联系起来230
7.5 本章小结230
第8章 提供相关性反馈232
8.1 搜索框中的相关性反馈234
8.1.1 利用“即输即搜”提供即时结果234
8.1.2 利用“搜索补全”帮助用户找到最佳查询236
8.1.3 利用搜索建议来修正输入和拼写错误244
8.2 浏览期间的相关性反馈247
8.2.1 构建基于切面的浏览249
8.2.2 提供面包线导航251
8.2.3 选择其他的结果排序方式252
8.3 搜索结果清单中的相关性反馈253
8.3.1 什么信息应该出现在搜索结果中254
8.3.2 通过文本片段与高亮提供相关性反馈255
8.3.3 对相似文档分组259
8.3.4 在用户搜不到结果时给予帮助261
8.4 本章小结262
第9章 设计以相关性为核心的搜索应用263
9.1 Yowl!一个绝佳的新起点264
9.2 信息和需求的收集265
9.2.1 理解用户及其信息需求265
9.2.2 理解业务需求267
9.2.3 找出必要及可用的信息268
9.3 搜索应用的设计269
9.3.1 将用户体验可视化270
9.3.2 定义字段和模型的信号273
9.3.3 信号的组合与平衡274
9.4 部署、监控和改进286
9.4.1 监控286
9.4.2 找出问题并解决它们288
9.5 知道什么是恰到好处289
9.6 本章小结290
第10章 以相关性为核心的企业292
10.1 反馈:以相关性为核心的企业所依赖的基石294
10.2 为什么以用户为中心的文化比数据驱动的文化更重要296
10.3 无视相关性的天马行空299
10.4 相关性反馈的觉醒:领域专家和专业用户301
10.5 相关性反馈的成长:内容管理303
10.5.1 内容管理员的角色304
10.5.2 与内容管理员缺乏交流的风险306
10.6 让相关性更加流畅:工程师/内容管理员的结对307
10.7 让相关性加速:测试驱动的相关性309
10.7.1 理解测试驱动的相关性309
10.7.2 使用带用户行为数据的测试驱动相关性312
10.8 超越测试驱动的相关性:学习排序313
10.9 本章小结315
第11章 语义和个性化搜索316
11.1 基于用户概况的个性化搜索318
11.1.1 收集用户的概况信息319
11.1.2 将概要信息与文档索引紧密关联319
11.2 基于用户行为的个性化搜索320
11.2.1 引入协同过滤321
11.2.2 使用共现计数的基本协同过滤算法322
11.2.3 将用户行为信息与文档索引紧密关联327
11.3 构建概念性搜索的基本方法332
11.3.1 构建概念性信号333
11.3.2 利用同义词对内容进行扩充334
11.4 利用机器学习来构建概念性搜索336
11.4.1 概念性搜索中短语的重要性338
11.5 连接个性化搜索与概念性搜索338
11.6 推荐是一种广义的搜索339
11.6.1 用推荐代替搜索341
11.7 祝愿大家有一个美好的相关性搜索之旅342
11.8 本章小结343
附录A 直接根据TMDB建立索引344
附录B Solr读者指南351
热门推荐
- 3322980.html
- 3079316.html
- 1803103.html
- 3622945.html
- 1685438.html
- 595305.html
- 2825164.html
- 540357.html
- 3359097.html
- 2751859.html
- http://www.ickdjs.cc/book_795328.html
- http://www.ickdjs.cc/book_2486472.html
- http://www.ickdjs.cc/book_2539411.html
- http://www.ickdjs.cc/book_3488027.html
- http://www.ickdjs.cc/book_3302612.html
- http://www.ickdjs.cc/book_3186561.html
- http://www.ickdjs.cc/book_1098733.html
- http://www.ickdjs.cc/book_3633177.html
- http://www.ickdjs.cc/book_1954364.html
- http://www.ickdjs.cc/book_2057317.html