图书介绍

Lecene分析与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

吴众欣编著著
出版社：北京：机械工业出版社
ISBN：9787111249924
出版时间：2008
标注页数：279页
文件大小：59MB
文件页数：287页
主题词：计算机网络－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：9733faa9dd52697f3e2cdfcc5b137506

下载说明

Lecene分析与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

前言1

第1章搜索引擎与Lucene1

1.1 搜索引擎与Lucene简介1

1.1.1 搜索引擎分类1

1.1.2 Lucene项目简介4

1.1.3 其他搜索引擎开发包介绍5

1.2 Lucene的系统架构7

1.2.1 Lucene最简示例7

1.2.2 Lucene采用的索引结构13

1.2.3 Lucene软件包架构13

1.3 本书的章节导航14

第2章文档逻辑视图与文本分析15

2.1 文档逻辑视图15

2.2 Lucene的文本分析过程简介19

2.3 空格解析器（WhitespaceAnalyzer）21

2.3.1 空格分词器（WhitespaceTokenizer）21

2.3.2 Token（标志）23

2.4 标准解析器（StandardAnalyzer）23

2.4.1 标准分词器（StandardTokenizer）25

2.4.2 标准过滤器27

2.5 打造自己的解析器28

2.5.1 常用的中文分词法28

2.5.2 对CJKAnalyzer的分析28

2.5.3 构造自己的解析器30

第3章 Lucene创建索引之一（段索引方式与倒排索引结构）41

3.1 倒排结构与段索引方式41

3.2 索引写入过程概述49

第4章 Lucene创建索引之二（在内存中创建索引）52

4.1 创建Document层面索引52

4.2 写入field信息55

4.3 文件倒排过程58

4.4 填写postingTable62

4.5 postingTable的排序过程65

4.6 写入field名字文件（.fnm文件）68

4.7 写入field信息文件（.fdt，.fdx文件）.70

4.8 写入频率与位置文件（.frq与.prx文件）73

4.9 TermVector方式写入索引（.tvf，.tvd与.tvx文件）79

4.10 字典文件（.tis与.tii文件）87

4.11 写入规格化文件92

第5章 Lucene创建索引之三（索引合并过程）93

5.1 document层面的合并过程94

5.2 field与term的合并过程101

5.2.1 field信息合并过程101

5.2.2 term信息合并过程103

5.2.3 合并norm信息117

5.3 Lunece索引采用的压缩算法119

5.3.1 frontcoding（端部编码）119

5.3.2 variable-byte coding（变长字节编码）120

5.3.3 delta-coding或delta-encoding121

5.4 小结121

第6章 Lucene查询过程之一（查询模型与引擎预热）123

6.1 查询模型123

6.1.1 向量模型123

6.1.2 布尔模型124

6.1.3 Lucene的评分（score）方式124

6.2 查询简单示例125

6.3 引擎预热127

6.3.1 获得并打开索引文件128

6.3.2 获得segment信息131

6.3.3 FSDirectory打开索引过程144

6.3.4 获得field信息148

6.3.5 获得term信息151

第7章 Lucene查询过程之二（查询解析与语法）156

7.1 构建查询解析器（QueryParser）156

7.2 Lucene的查询语法156

7.2.1 项（Term）查询157

7.2.2 域（Field）157

7.2.3 词条查询（Term Modifiers）157

7.2.4 布尔操作符（Boolean Operator）159

7.2.5 组合查询（Grouping）161

7.2.6 针对field的组合查询（Field Grouping Field）161

7.2.7 Escaping Special Character（转义字符）161

7.3 Lucene查询语法树的构建过程161

7.3.1 过程分析162

7.3.2 语法树分析实例165

第8章 Lucene查询过程之三（相似度匹配与算法分析）167

8.1 查询与相似度计算167

8.1.1 查询器（Searcher）的查询过程168

8.1.2 查询语句的权重计算169

8.1.3 获得topK个document182

8.2 Lucene查询算法分析205

8.2.1 相似度计算简单实例205

8.2.2 线性相似度计算207

8.2.3 基于倒排索引的相似度计算207

8.2.4 Lucene的相似度计算209

第9章 Lucene标引与查询全程示例214

9.1 实例描述214

9.2 建立索引过程215

9.2.1 选择文档中建立索引的field215

9.2.2 选择field录入方式216

9.2.3 生成segment文件216

9.2.4 生成fields文件216

9.2.5 posting文件217

9.2.6 合并segment index生成index文件222

9.2.7 合并后的文件关系233

9.3 查询过程235

第10章 Lucene的常用应用场景分析237

10.1 对大型XML文档集合的检索237

10.1.1 都柏林文件介绍237

10.1.2 XML分析器介绍240

10.1.3 Lucene在大型XML文件中的应用240

10.2 MultiSearcher的应用245

10.2.1 MultiSearcher的应用245

10.2.2 ParallelMultiSearcher的应用249

第11章利用Lucene构建分布式搜索引擎251

11.1 分布式文件系统和Hadoop251

11.1.1 Hadoop文件系统体系结构251

11.1.2 系统交互过程：单一NameNode方式252

11.1.3 系统组件描述253

11.2 Nutch简单剖析259

11.3 体验Nutch262

附录A TestIndexWriterMerging269

附录B TestDocumentWriter与DocHelper271