图书介绍
Webbots、Spiders和Screen Scrapers 技术解析与应用实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)斯昆克著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111417682
- 出版时间:2013
- 标注页数:282页
- 文件大小:133MB
- 文件页数:299页
- 主题词:网页制作工具
PDF下载
下载说明
Webbots、Spiders和Screen Scrapers 技术解析与应用实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 基础概念和技术3
第1章 本书主要内容3
1.1发现互联网的真正潜力3
1.2对开发者来说3
1.2.1网络机器人开发者是紧缺人才4
1.2.2编写网络机器人是有趣的4
1.2.3网络机器人利用了“建设性黑客”技术4
1.3对企业管理者来说5
1.3.1为业务定制互联网5
1.3.2充分利用公众对网络机器人的经验不足5
1.3.3事半功倍6
1.4结论6
第2章 网络机器人项目创意7
2.1浏览器局限性的启发7
2.1.1聚合并过滤相关信息的网络机器人7
2.1.2解释在线信息的网络机器人8
2.1.3个人代理网络机器人9
2.2从疯狂的创意开始9
2.2.1帮助繁忙的人解脱10
2.2.2自动执行,节省开支10
2.2.3保护知识产权10
2.2.4监视机会11
2.2.5在网站上验证访问权限11
2.2.6创建网上剪报服务11
2.2.7寻找未授权的Wi-Fi网络12
2.2.8跟踪网站技术12
2.2.9让互不兼容的系统通信12
2.3结论13
第3章 下载网页14
3.1当它们是文件,而不是网页14
3.2用PHP的内置函数下载文件15
3.2.1用fopen()和fgets()下载文件15
3.2.2用file()函数下载文件17
3.3 PHP/CURL库介绍18
3.3.1多种传输协议18
3.3.2表单提交19
3.3.3基本认证技术19
3.3.4 cookie19
3.3.5重定向19
3.3.6代理名称欺诈19
3.3.7上链管理20
3.3.8套接字管理20
3.4安装PHP/CURL20
3.5 LIB_http库21
3.5.1熟悉默认值21
3.5.2使用LIB_http21
3.5.3了解更多HTTP标头信息24
3.5.4检查LIB http的源代码25
3.6结论25
第4章 基本解析技术26
4.1内容与标签相混合26
4.2解析格式混乱的HTML文件26
4.3标准解析过程27
4.4使用LIB_parse库27
4.4.1用分隔符分解字符串:split_string()函数27
4.4.2提取分隔符之间的部分:return_between()函数28
4.4.3将数据集解析到数组之中:parse_array()函数29
4.4.4提取属性值:get_attribute()函数30
4.4.5移除无用文本:remove()函数32
4.5有用的PHP函数32
4.5.1判断一个字符串是否在另一个字符串里面32
4.5.2用一个字符串替换另一个字符串中的一部分33
4.5.3解析无格式文本33
4.5.4衡量字符串的相似度34
4.6结论34
4.6.1别相信编码混乱的网页34
4.6.2小步解析35
4.6.3不要在调试的时候渲染解析结果35
4.6.4少用正则表达式35
第5章 使用正则表达式的高级解析技术36
5.1模式匹配——正则表达式的关键36
5.2 PHP的正则表达式类型36
5.2.1 PHP正则表达式函数37
5.2.2与PHP内置函数的相似之处38
5.3从例子中学习模式匹配39
5.3.1提取数字39
5.3.2探测字符串序列39
5.3.3字母字符匹配40
5.3.4通配符匹配40
5.3.5选择匹配41
5.3.6分组和范围匹配的正则表达式41
5.4与网络机器人开发者相关的正则表达式41
5.4.1提取电话号码42
5.4.2下一步学习什么45
5.5何时使用正则表达式46
5.5.1正则表达式的长处46
5.5.2模式匹配用于解析网页的劣势46
5.5.3哪个更快,正则表达式还是PHP的内置函数48
5.6结论48
第6章 自动表单提交49
6.1表单接口的反向工程50
6.2表单处理器、数据域、表单方法和事件触发器50
6.2.1表单处理器50
6.2.2数据域51
6.2.3表单方法52
6.2.4多组件编码54
6.2.5事件触发器54
6.3无法预测的表单55
6.3.1 JavaScript能在提交之前修改表单55
6.3.2表单HTML代码通常无法阅读55
6.3.3 cookie在表单里不存在,却会影响其操作55
6.4分析表单55
6.5结论59
6.5.1不要暴露身份59
6.5.2正确模拟浏览器59
6.5.3避免表单错误60
第7章 处理大规模数据61
7.1组织数据61
7.1.1命名规范61
7.1.2在结构化文件里存储数据62
7.1.3在数据库里存储文本数据64
7.1.4在数据库里存储图片66
7.1.5用数据库,还是用文件系统68
7.2减小数据规模68
7.2.1保存图片文件的地址68
7.2.2压缩数据68
7.2.3移除格式信息71
7.3生成图片的缩略图72
7.4结论73
第二部分 网络机器人项目77
第8章 价格监控网络机器人77
8.1目标网站77
8.2设计解析脚本78
8.3初始化以及下载目标网页79
8.4进一步探讨83
第9章 图片抓取网络机器人84
9.1图片抓取网络机器人例子84
9.2创建图片抓取网络机器人85
9.2.1二进制安全下载过程86
9.2.2目录结构87
9.2.3主脚本87
9.3进一步探讨90
9.4结论90
第10章 链接校验网络机器人91
10.1创建链接校验网络机器人91
10.1.1初始化网络机器人并下载目标网页92
10.1.2设置页面基准92
10.1.3提取链接93
10.1.4运行校验循环93
10.1.5生成URL完整路径93
10.1.6下载全链接路径94
10.1.7展示页面状态95
10.2运行网络机器人95
10.2.1 LIB_http_codes96
10.2.2 LIB_resolve_addresses96
10.3进一步探讨97
第11章 搜索排名检测网络机器人98
11.1搜索结果页介绍99
11.2搜索排名检测网络机器人做什么工作100
11.3运行搜索排名检测网络机器人100
11.4搜索排名检测网络机器人的工作原理101
11.5搜索排名检测网络机器人脚本101
11.5.1初始化变量102
11.5.2开始循环102
11.5.3获取搜索结果103
11.5.4解析搜索结果103
11.6结论106
11.6.1对数据源要厚道106
11.6.2搜索网站对待网络机器人可能会不同于浏览器106
11.6.3爬取搜索引擎不是好主意106
11.6.4熟悉Google API107
11.7进一步探讨107
第12章 信息聚合网络机器人108
12.1给网络机器人选择数据源108
12.2信息聚合网络机器人举例109
12.2.1熟悉RSS源109
12.2.2编写信息聚合网络机器人111
12.3给信息聚合网络机器人添加过滤机制114
12.4进一步探讨115
第13章 FTP网络机器人116
13.1 FTP网络机器人举例116
13.2 PHP和FTP118
13.3进一步探讨119
第14章 阅读电子邮件的网络机器人120
14.1 POP3协议120
14.1.1登录到POP3邮件服务器120
14.1.2从POP3邮件服务器上读取邮件121
14.2用网络机器人执行POP3命令123
14.3进一步探讨125
14.3.1电子邮件控制的网络机器人125
14.3.2电子邮件接口125
第15章 发送电子邮件的网络机器人127
15.1电子邮件、网络机器人以及垃圾邮件128
15.2使用SMTP和PHP发送邮件128
15.2.1配置PHP发送邮件128
15.2.2使用mai10函数发送电子邮件129
15.3编写发送电子邮件通知的网络机器人130
15.3.1让合法的邮件不被过滤掉132
15.3.2发送HTML格式的电子邮件132
15.4进一步探讨134
15.4.1使用回复邮件剪裁访问列表134
15.4.2使用电子邮件作为你的网络机器人运行的通知134
15.4.3利用无线技术134
15.4.4编写发送短信的网络机器人135
第16章 将一个网站转变成一个函数136
16.1编写一个函数接口136
16.1.1定义函数接口137
16.1.2分析目标网页137
16.1.3使用describe_zipcode()函数140
16.2结论141
16.2.1资源分发142
16.2.2使用标准接口142
16.2.3设计定制的轻量级“Web服务”142
第三部分 高级设计技巧145
第17章 蜘蛛145
17.1蜘蛛的工作原理145
17.2蜘蛛脚本示例146
17.3 LIB_simple_spider149
17.3.1 harvest_links()149
17.3.2 archive_links()149
17.3.3 get_domain()150
17.3.4 exclude_link()150
17.4使用蜘蛛进行实验152
17.5添加载荷152
17.6进一步探讨153
17.6.1在数据库中保存链接153
17.6.2分离链接和载荷153
17.6.3在多台计算机上分配任务153
17.6.4管理页面请求154
第18章 采购机器人和秒杀器155
18.1采购机器人的原理155
18.1.1获取采购标准155
18.1.2认证买家155
18.1.3核对商品156
18.1.4评估购物触发条件156
18.1.5执行购买157
18.1.6评估结果157
18.2秒杀器的原理157
18.2.1获取采购标准158
18.2.2认证竞拍者158
18.2.3核对拍卖商品158
18.2.4同步时钟158
18.2.5竞价时间159
18.2.6提交竞价160
18.2.7评估结果160
18.3测试自己的网络机器人和秒杀器160
18.4进一步探讨160
18.5结论161
第19章 网络机器人和密码学162
19.1设计使用加密的网络机器人162
19.1.1 SSL和PHP内置函数163
19.1.2加密和PHP/CURL163
19.2网页加密的简要概述163
19.3结论164
第20章 认证165
20.1认证的概念165
20.1.1在线认证的类型165
20.1.2用多种方式加强认证166
20.1.3认证和网络机器人166
20.2示例脚本和实践页面166
20.3基本认证167
20.4会话认证168
20.4.1使用cookie会话的认证169
20.4.2使用查询会话进行认证172
20.5结论174
第21章 高级cookie管理175
21.1 cookie的工作原理175
21.2 PHP/CURL和cookie177
21.3网络机器人设计中面临的cookie难题178
21.3.1擦除临时性cookie178
21.3.2管理多用户的cookie178
21.4进一步探讨179
第22章 计划运行网络机器人和蜘蛛180
22.1为网络机器人配置计划任务180
22.2 Windows XP任务调度程序181
22.2.1计划网络机器人按日运行181
22.2.2复杂的计划182
22.3 Windows 7任务调度程序184
22.4非日历事件触发器186
22.5结论188
22.5.1如何决定网络机器人的最佳运行周期188
22.5.2避免单点故障188
22.5.3在计划中加入变化性188
第23章 使用浏览器宏抓取怪异的网站189
23.1高效网页抓取的阻碍190
23.1.1 AJAX190
23.1.2怪异的JavaScript和cookie行为190
23.1.3 Flash190
23.2使用浏览器宏解决网页抓取难题191
23.2.1浏览器宏的定义191
23.2.2模拟浏览器的终极网络机器人191
23.2.3安装和使用iMacros191
23.2.4创建第一个宏192
23.3结论197
23.3.1宏的必要性197
23.3.2其他用途197
第24章 修改iMacros198
24.1增强iMacros的功能198
24.1.1不使用iMacros脚本引擎的原因198
24.1.2创建动态宏199
24.1.3自动装载iMacros202
24.2进一步探讨204
第25章 部署和扩展205
25.1一对多环境205
25.2一对一环境206
25.3多对多环境206
25.4多对一环境206
25.5扩展和拒绝服务攻击207
25.5.1简易的网络机器人也会产生大量数据207
25.5.2目标的低效207
25.5.3过度扩展的弊端207
25.6创建多个网络机器人的实例208
25.6.1创建进程208
25.6.2利用操作系统208
25.6.3在多台计算机上分发任务208
25.7管理僵尸网络209
25.8进一步探讨215
第四部分 拓展知识219
第26章 设计隐蔽的网络机器人和蜘蛛219
26.1设计隐蔽网络机器人的原因219
26.1.1 日志文件219
26.1.2日志监控软件222
26.2模拟人类行为实现隐蔽222
26.2.1善待资源222
26.2.2在繁忙的时刻运行网络机器人222
26.2.3在每天不同时刻运行网络机器人223
26.2.4不要在假期和周末运行网络机器人223
26.2.5使用随机的延迟时间223
26.3结论223
第27章 代理226
27.1代理的概念226
27.2虚拟世界中的代理226
27.3网络机器人开发者使用代理的原因226
27.3.1使用代理实现匿名227
27.3.2使用代理改变位置229
27.4使用代理服务器229
27.4.1在浏览器中使用代理229
27.4.2通过PHP/CURL使用代理230
27.5代理服务器的类型230
27.5.1公共代理230
27.5.2 Tor232
27.5.3商业代理234
27.6结论234
27.6.1匿名是过程,不是特性234
27.6.2创建自己的代理服务235
第28章 编写容错的网络机器人236
28.1网络机器人容错的类型236
28.1.1适应URL变化236
28.1.2适应页面内容的变化240
28.1.3适应表单的变化242
28.1.4适应cookie管理的变化243
28.1.5适应网络中断和网络拥堵243
28.2错误处理器244
28.3进一步探讨245
第29章 设计受网络机器人青睐的网站246
29.1针对搜索引擎蜘蛛优化网页246
29.1.1定义明确的链接246
29.1.2谷歌轰炸和垃圾索引247
29.1.3标题标签247
29.1.4元标签247
29.1.5标头标签248
29.1.6图片的alt属性248
29.2阻碍搜索引擎蜘蛛的网页设计技巧248
29.2.1 JavaScript249
29.2.2非ASCⅡ内容249
29.3设计纯数据接口249
29.3.1 XML249
29.3.2轻量级数据交换251
29.3.3简单对象访问协议253
29.3.4表征状态转移254
29.4结论255
第30章 消灭蜘蛛256
30.1合理地请求256
30.1.1创建服务协议条款257
30.1.2使用robots.txt文件257
30.1.3使用robots元标签258
30.2创造障碍258
30.2.1选择性地允许特定的网页代理259
30.2.2使用混淆259
30.2.3使用cookie、加密、JavaScript和重定向259
30.2.4认证用户260
30.2.5频繁升级网站260
30.2.6在其他媒体中嵌入文本260
30.3设置陷阱261
30.3.1创建蜘蛛陷阱261
30.3.2处理不速之客的方法261
30.4结论262
第31章 远离麻烦263
31.1尊重264
31.2版权264
31.2.1请善用资源264
31.2.2不要纸上谈兵265
31.3侵犯动产267
31.4互联网法律268
31.5结论269
附录A PHP/CURL参考270
附录B 状态码277
附录C 短信网关280
热门推荐
- 1618364.html
- 3135671.html
- 2357746.html
- 2320332.html
- 766400.html
- 3555452.html
- 604898.html
- 1219573.html
- 3291514.html
- 90347.html
- http://www.ickdjs.cc/book_3374374.html
- http://www.ickdjs.cc/book_3333379.html
- http://www.ickdjs.cc/book_2364283.html
- http://www.ickdjs.cc/book_3394525.html
- http://www.ickdjs.cc/book_3791237.html
- http://www.ickdjs.cc/book_3434020.html
- http://www.ickdjs.cc/book_1627666.html
- http://www.ickdjs.cc/book_2424328.html
- http://www.ickdjs.cc/book_2348739.html
- http://www.ickdjs.cc/book_871427.html