侧边栏壁纸
博主头像
落叶人生博主等级

走进秋风,寻找秋天的落叶

  • 累计撰写 130562 篇文章
  • 累计创建 28 个标签
  • 累计收到 9 条评论
标签搜索

目 录CONTENT

文章目录

《http权威指南》读书笔记 五

2022-06-27 星期一 / 0 评论 / 0 点赞 / 98 阅读 / 1364 字

WEB机器人之robots协议web机器人,即爬虫。可以递归的对web站点进行遍历查询,获取web页面。robots.txt:robots协议,是一种自愿约束技术。有些web站点并不希望web机器人查

.

WEB机器人之robots协议


web机器人,即爬虫。可以递归的对web站点进行遍历查询,获取web页面。

robots.txt:robots协议,是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息,人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件,该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议,当它访问一个web站点时,会首先去根目录下读取robots.txt文件,查看是否有权限去获取个文件。

注:robots.txt资源并不一定严格的存在于web站点的文件系统中,它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt,如果web站点存在该文件,就会将其放在text/plain主体返回给web机器人。如果不存在该文件,则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式:

User-Agent:<robot-name1>(不区分大小写)

Disallow:/private


User-Agent:<robot-name2>

Disallow:/protect

如果机器人没有在该文件中找到与之匹配的规则,则访问不受限制。


.

广告 广告

评论区