图书介绍

信息检索与智能处理2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

高凯，仇晶，张晓明，王伟，张华平著著
出版社：北京：国防工业出版社
ISBN：9787118090048
出版时间：2014
标注页数：216页
文件大小：51MB
文件页数：231页
主题词：情报检索－信息处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：bcd8f88d842afec516ccdf66fdfba6c6

下载说明

信息检索与智能处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1篇背景知识1

第1章绪论1

1.1 信息及其分类1

1.2 信息检索的起源和发展2

1.2.1 手工检索2

1.2.2 脱机批处理检索2

1.2.3 联机检索3

1.2.4 光盘检索3

1.2.5 网络信息检索3

1.3 信息检索与其他学科的关系4

1.4 本书主要关注的内容及知识点间的联系5

1.5 本章小结6

参考文献7

第2章信息智能处理关键技术综述8

2.1 自然语言处理及中文分词8

2.1.1 基于词典匹配的中文分词法9

2.1.2 基于词频统计的无词典中文分词法10

2.2 异构信息处理与内容表示11

2.3 文本挖掘11

2.4 实体关系抽取11

2.5 命名实体识别12

2.6 话题跟踪13

2.7 文本分类13

2.7.1 基于统计和分词的方法14

2.7.2 基于向量空间模型的方法14

2.7.3 基于知识工程的分类方法14

2.8 文本情感分析14

2.9 文本聚类16

2.10 自动摘要16

2.11 全文检索17

2.12 语义Web与信息集成19

2.13 大数据处理与Hadoop开源系统20

2.13.1 Hadoop简介20

2.13.2 HBase简介21

2.13.3 Hive简介21

2.13.4 Pig简介21

2.13.5 Cassandra简介22

2.13.6 Chukwa简介22

2.14 本章小结22

参考文献22

第3章搜索引擎与信息检索综述27

3.1 搜索引擎概述27

3.2 搜索引擎的发展历程28

3.3 搜索引擎的分类29

3.3.1 目录索引式搜索引擎29

3.3.2 自动式搜索引擎29

3.3.3 元搜索引擎29

3.3.4 分布式搜索引擎30

3.4 网络信息检索与处理的基本流程30

3.4.1 网络信息获取30

3.4.2 信息抽取32

3.4.3 信息加工33

3.4.4 信息检索与结果提供35

3.5 开源研发工具35

3.5.1 Lucene35

3.5.2 Lemur37

3.5.3 LIUS37

3.5.4 Egothor37

3.5.5 Xapian37

3.5.6 Sphinx38

3.6 信息检索评测38

3.6.1 TREC评测38

3.6.2 其他评测：NTCIR、CLEF、SEWM39

3.7 信息检索模型与基本方法39

3.7.1 布尔检索模型40

3.7.2 概率检索模型41

3.7.3 向量空间模型41

3.7.4 模糊检索模型42

3.7.5 逻辑检索模型42

3.7.6 概念检索43

3.7.7 案例检索44

3.8 信息检索系统的性能评价指标44

3.9 信息检索系统的体系结构46

3.10 本章小结46

参考文献46

第2篇信息处理48

第4章海量异构信息采集48

4.1 概述48

4.2 相关工作综述与扩展阅读48

4.3 海量异构信息的获取与处理50

4.3.1 异构数据整合50

4.3.2 爬虫设计50

4.3.3 异构数据处理53

4.4 基于网站优先级调整的信息动态采集算法55

4.4.1 网页时新度的确定56

4.4.2 基于网页时新度的网站优先级调整思路57

4.4.3 基于网站优先级的多线程网页信息采集技术58

4.4.4 根据网页类别确定优先级59

4.4.5 实验及结果分析59

4.5 本章小结63

参考文献63

第5章网页正文提取与解析65

5.1 概述65

5.2 相关工作综述与扩展阅读66

5.3 基于DOM的网页正文提取与解析67

5.3.1 DOM规范简述67

5.3.2 算法描述68

5.4 基于文字密度的网页正文提取70

5.4.1 算法流程图71

5.4.2 网页源码预处理71

5.4.3 网页正文源码行中文密度的计算72

5.4.4 网页源码正文分块72

5.4.5 网页正文识别72

5.4.6 网页原始格式的保留问题74

5.4.7 实验设计与数据分析74

5.5 本章小结75

参考文献75

第6章实体关系抽取76

6.1 概述76

6.2 相关工作综述与扩展阅读76

6.2.1 基于模板的方法77

6.2.2 基于特征的实体关系抽取77

6.2.3 基于Kernel的实体关系抽取77

6.2.4 基于无指导的学习方法78

6.3 核函数78

6.3.1 核函数的基本数学性质79

6.3.2 常用的核函数80

6.4 特征核函数80

6.4.1 定义80

6.4.2 句法核函数81

6.4.3 组合核函数83

6.5 未使用Bootstrapping算法的实体关系自动抽取83

6.5.1 系统模型83

6.5.2 实验数据集84

6.5.3 实验结果84

6.6 基于Bootstrapping算法的实体关系自动抽取85

6.6.1 系统模型85

6.6.2 实验结果85

6.7 本章小结87

参考文献87

第7章命名实体识别及话题跟踪89

7.1 概述89

7.2 相关工作综述与扩展阅读89

7.2.1 命名实体识别研究概况及发展趋势89

7.2.2 话题跟踪的相关研究90

7.3 将时间信息用于话题跟踪91

7.3.1 时间信息识别91

7.3.2 时间信息的规范92

7.3.3 时间信息的相似度计算94

7.3.4 时间信息抽取性能评估95

7.4 标题信息用于话题跟踪96

7.5 话题跟踪模型96

7.6 实验结果与分析97

7.6.1 新闻正文抽取97

7.6.2 新闻标题抽取98

7.6.3 新闻发布时间的抽取99

7.6.4 实验结果99

7.7 本章小结101

参考文献102

第8章主题概念自动标引103

8.1 概述103

8.2 相关工作综述与扩展阅读103

8.3 基于概念分析的主题词自动标引105

8.3.1 文章模型建立105

8.3.2 主题词自动标引算法105

8.3.3 主题概念权值的设定110

8.3.4 同（近）义词、忽略词和用户自定义词的处理112

8.3.5 基于频率统计和规则过滤的未登录词识别与处理115

8.4 基于遗传算法的主题概念权值学习与调整算法120

8.4.1 编码设计120

8.4.2 适应性函数120

8.4.3 选择策略121

8.4.4 变异策略121

8.4.5 杂交策略122

8.4.6 学习算法122

8.5 算法实验与性能分析124

8.5.1 实验环境与实验数据124

8.5.2 实验评价标准124

8.5.3 各领域标引结果满意度测试125

8.5.4 基于遗传算法的主题概念权值学习与调整实验127

8.6 下一步的研究计划128

8.7 本章小结128

参考文献128

第9章文本自动摘要130

9.1 概述130

9.2 相关工作综述与扩展阅读130

9.3 基于主题标引相似计算的文本自动摘要132

9.3.1 文档结构模型表示133

9.3.2 主题词串的向量化与构建文档向量空间模型134

9.3.3 计算文档结构各部分的权重135

9.3.4 正规则、负规则、用户倾向性词表的定义与应用136

9.3.5 基于语句相似度的语句冗余度算法以及摘要句冗余度阈值的使用136

9.3.6 摘要和原文比例的确定以及摘要生成138

9.3.7 预处理网页正文对提高摘要准确性的作用139

9.3.8 提高摘要算法实时性的措施141

9.4 算法实验及性能分析141

9.5 本章小结143

参考文献143

第10章文本自动分类145

1O.1 概述145

10.2 相关工作综述与扩展阅读147

10.3 算法流程150

10.4 文本表示模型151

10.4.1 基于主题词向量模板的文本表示模型151

10.4.2 基于特征词哈希表的文本表示模型152

10.5 两种辅助算法153

10.5.1 改进的向量内积算法153

10.5.2 改进的相似度算法154

10.6 类别中心向量分类算法154

10.6.1 算法主要步骤154

10.6.2 类别中心向量修正155

10.7 算法性能分析157

10.7.1 两种向量表示方法的性能比较157

10.7.2 类别中心向量分类算法的实验及分析160

10.8 无分词分类算法161

10.8.1 基于单字计算的文本分类算法162

10.8.2 特征向量生成162

10.8.3 相似度计算163

10.8.4 实验结果分析164

10.9 本章小结169

参考文献169

第3篇应用171

第11章网络信息检索系统的设计与实现171

11.1 “艺海拾贝”搜索引擎的设计与实现171

11.1.1 系统特点172

11.1.2 网络爬虫172

11.1.3 信息检索与结果输出178

11.1.4 系统总体架构与特点179

11.1.5 目前尚存的主要问题及下一步的工作180

11.2 “校园采风”搜索引擎的设计与实现181

11.2.1 概述181

11.2.2 网页采集182

11.3 海量异构信息检索原型系统的设计与实现184

11.3.1 各模块主要功能与实现184

11.3.2 系统运行效果186

11.4 本章小结189

参考文献189

第12章文献共享平台与数字图书馆的设计与实现190

12.1 概述190

12.2 信息抽取与异构数据表示190

12.2.1 开源HTML解析工具简介191

12.2.2 基于XML的信息组织191

12.3 科技文献共享平台设计与实现192

12.3.1 系统需求分析192

12.3.2 系统设计193

12.3.3 访问CNKI中国期刊全文数据库196

12.4 本章小结200

参考文献200

第13章信息可视化技术及其实现201

13.1 概述201

13.2 可视化类库与工具201

13.2.1 TouchGraph201

13.2.2 Prefuse和Flare202

13.2.3 JGraphX/mxGraph202

13.3 基于Prefuse可视化技术的网络链接分析202

13.3.1 问题和目标202

13.3.2 设计思路203

13.3.3 实现方案203

13.3.4 系统实现209

13.3.5 实验结果214

13.4 本章小结215

参考文献215