图书介绍
使用C#开发搜索引擎2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 罗刚编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302270706
- 出版时间:2012
- 标注页数:346页
- 文件大小:178MB
- 文件页数:356页
- 主题词:C语言-程序设计
PDF下载
下载说明
使用C#开发搜索引擎PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 使用C#开发搜索引擎快速入门1
1.1各种搜索引擎1
1.1.1通用搜索2
1.1.2垂直搜索2
1.1.3站内搜索3
1.2搜索引擎整体结构3
1.3搜索引擎基本技术4
1.3.1网络爬虫4
1.3.2文本挖掘4
1.3.3全文索引4
1.3.4搜索语法介绍7
1.3.5搜索用户界面8
1.4 C#开发快速入门9
1.4.1准备开发环境9
1.4.2基本语法9
1.4.3多维数组11
1.4.4位运算11
1.4.5枚举类型12
1.4.6面向对象13
1.4.7集合类15
1.4.8泛型17
1.4.9委托和事件17
1.4.10类库20
1.5本章小结20
1.6术语表20
第2章 使用C#开发网络爬虫22
2.1网络爬虫抓取原理22
2.2爬虫架构24
2.2.1基本架构25
2.2.2分布式爬虫架构26
2.2.3垂直爬虫架构27
2.3下载网页28
2.3.1 HTTP协议28
2.3.2下载静态网页31
2.3.3下载动态网页35
2.4网络爬虫遍历与实现42
2.5网站地图44
2.6连接池44
2.7 URL地址查新45
2.7.1嵌入式数据库46
2.7.2布隆过滤器48
2.8抓取RSS50
2.9解析相对地址53
2.10网页更新53
2.11信息过滤56
2.12垂直行业抓取60
2.13抓取限制应对方法60
2.13.1更换IP地址61
2.13.2抓取需要登录的网页64
2.13.3抓取ASP. NET网页66
2.14保存信息69
2.14.1存入数据库69
2.14.2存成图像70
2.15 日志71
2.16本章小结74
2.17术语表75
第3章 索引各种格式文档78
3.1从HTML文件中提取信息78
3.1.1识别网页的编码78
3.1.2正则表达式80
3.1.3 Html Agility Pack介绍84
3.1.4网页正文提取88
3.1.5结构化信息提取100
3.1.6查看网页的DOM结构104
3.1.7网页结构相似度计算106
3.2从非HTML文件中提取文本109
3.2.1 TEXT文件109
3.2.2 PDF文件109
3.2.3 Office文件112
3.2.4 Rtf文件113
3.3本章小结114
3.4术语表114
第4章 自然语言处理115
4.1统计机器学习115
4.2文档排重121
4.3中文关键词提取129
4.3.1关键词提取的基本方法129
4.3.2从网页中提取关键词132
4.4相关搜索132
4.5拼写检查133
4.5.1拼写检查的概率模型134
4.5.2模糊匹配问题134
4.5.3英文拼写检查138
4.5.4中文拼写检查141
4.6文本摘要142
4.6.1文本摘要的设计142
4.6.2实现文本摘要技术143
4.6.3 Lucene.Net中的动态摘要148
4.7文本分类149
4.7.1自动分类的接口定义149
4.7.2自动分类的实现149
4.8自动聚类151
4.8.1文档相似度151
4.8.2 K均值聚类方法154
4.8.3 K均值实现155
4.9拼音转换157
4.10句法分析树157
4.11信息提取164
4.12本章小结171
4.13术语表172
第5章用C#实现中文分词174
5.1汉语中的词174
5.2文本切分的基本方法174
5.3有限状态机177
5.4查找词典算法179
5.4.1标准Trie树180
5.4.2三叉Trie树185
5.5中文分词的原理189
5.6中文分词流程与结构192
5.7切分词图193
5.7.1保存切分词图194
5.7.2生成全切分词图198
5.8概率语言模型的分词方法201
5.8.1一元模型201
5.8.2 N元模型204
5.9最大熵208
5.10未登录词识别210
5.11词性标注210
5.12地名切分220
5.12.1地址类性标注220
5.12.2未登录词识别220
5.13本章小结222
5.14术语表223
第6章Lucene.Net原理与应用224
6.1 Lucene.Net快速入门224
6.1.1索引文档225
6.1.2搜索文档226
6.1.3 Lucene.Net结构228
6.2 Lucene.Net深入介绍229
6.2.1索引原理229
6.2.2分析文本231
6.2.3遍历索引库234
6.2.4检索模型235
6.2.5收集最相关的文档236
6.3索引中的压缩算法240
6.3.1变长压缩241
6.3.2差分编码242
6.4创建和维护索引库243
6.4.1设计一个简单的索引库243
6.4.2创建索引库244
6.4.3向索引库中添加索引文档245
6.4.4删除索引库中的索引文档247
6.4.5更新索引库中的索引文档247
6.4.6索引的优化与合并248
6.5查找索引库248
6.5.1布尔查询249
6.5.2同时查询多列252
6.5.3跨度查询253
6.5.4通配符查询256
6.5.5过滤256
6.5.6按指定列排序258
6.5.7查询大容量索引263
6.5.8函数查询265
6.5.9定制相似性268
6.5.10评价搜索结果269
6.6中文信息检索269
6.6.1 Lucene.Net中的中文处理270
6.6.2 Lietu中文分词的使用270
6.6.3定制Tokenizer271
6.6.4解析查询串273
6.6.5实现字词混合索引276
6.7抓取数据库中的内容280
6.7.1读取数据280
6.7.2数据同步282
6.8概念搜索282
6.9本章小结285
6.10术语表286
第7章 实现搜索用户界面287
7.1搜索页面设计287
7.1.1用于显示搜索结果的 ASP.NET287
7.1.2搜索结果分页290
7.1.3设计一个简单的搜索页面291
7.2实现搜索接口291
7.2.1 Lucene.Net搜索接口291
7.2.2指定范围搜索296
7.2.3搜索页面的索引缓存与更新297
7.3实现关键词高亮显示300
7.4实现分类统计视图301
7.4.1搜索结果分类统计与导航301
7.4.2层次树305
7.5相关搜索词307
7.6实现AJAX自动完成308
7.6.1总体结构308
7.6.2服务器端处理310
7.6.3浏览器端处理310
7.7集成其他功能312
7.7.1拼写检查313
7.7.2再次查找313
7.7.3黑名单314
7.7.4搜索日志315
7.8本章小结316
第8章 使用Solr开发网站搜索317
8.1搜索服务器端317
8.8.1 Solr结构317
8.1.2启动Solr服务器318
8.1.3配置支持中文的Solr321
8.1.4索引数据324
8.1.5查询功能325
8.1.6高亮328
8.2 Solr的.NET客户端329
8.2.1使用SolrNet329
8.2.2实现多分类336
8.2.3分类统计338
8.3查询语法341
8.3.1对空格的支持341
8.3.2日期加权342
8.4索引分布344
8.5本章小结345
热门推荐
- 981611.html
- 156837.html
- 345529.html
- 34960.html
- 3813623.html
- 1290827.html
- 2950997.html
- 1570581.html
- 685961.html
- 119840.html
- http://www.ickdjs.cc/book_1910509.html
- http://www.ickdjs.cc/book_2493227.html
- http://www.ickdjs.cc/book_455538.html
- http://www.ickdjs.cc/book_1303158.html
- http://www.ickdjs.cc/book_1941263.html
- http://www.ickdjs.cc/book_579330.html
- http://www.ickdjs.cc/book_586454.html
- http://www.ickdjs.cc/book_1013447.html
- http://www.ickdjs.cc/book_882766.html
- http://www.ickdjs.cc/book_2527982.html