《http权威指南》读书笔记五-秋月博客

《http权威指南》读书笔记五

2022-06-27 星期一 / 0 评论 / 0 点赞 / 98 阅读 / 1364 字

06/27

WEB机器人之robots协议web机器人，即爬虫。可以递归的对web站点进行遍历查询，获取web页面。robots.txt：robots协议，是一种自愿约束技术。有些web站点并不希望web机器人查

WEB机器人之robots协议

web机器人，即爬虫。可以递归的对web站点进行遍历查询，获取web页面。

robots.txt：robots协议，是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息，人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件，该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议，当它访问一个web站点时，会首先去根目录下读取robots.txt文件，查看是否有权限去获取个文件。

注：robots.txt资源并不一定严格的存在于web站点的文件系统中，它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt，如果web站点存在该文件，就会将其放在text/plain主体返回给web机器人。如果不存在该文件，则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式：

User-Agent：<robot-name1>(不区分大小写)

Disallow：/private

User-Agent：<robot-name2>

Disallow：/protect

如果机器人没有在该文件中找到与之匹配的规则，则访问不受限制。

目录CONTENT

《http权威指南》读书笔记五

评论区

《http权威指南》读书笔记 五

评论区

《http权威指南》读书笔记五