Robots.txt  禁止爬虫

摘要:
字段:用户代理行用户代理:robot名称用户代理:*不允许和允许行Disallow://www.google.com/bot.html)用户代理:feed id=4619555564728728616)用户Agent://help.soso.com/webspider.htm)用户代理:

robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法:空行、注释行(以#打头)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。

User-Agent行

User-Agent: robot-name
User-Agent: *

Disallow和Allow行

Disallow: /path
Disallow:           # 空字符串,起通配符效果,全禁止

Allow: /path
Allow:              # 空字符串,起通配符效果,全允许

搜索引擎的User-Agent对应名称

搜索引擎User-Agent值
Googlegooglebot
百度baiduspider
雅虎slurp
MSNmsnbot
Alexais_archiver

我在Linux上抓包观察到的一些搜索引擎访问记录:

# tcpdump -n -nn -A -l -s1024 'tcp port 80'|grep User-Agent
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
User-Agent: Googlebot-Image/1.0
User-Agent: Feedfetcher-Google; (+http://www.google.com/feedfetcher.html; 5 subscribers; feed-id=4619555564728728616)
User-Agent: Mozilla/5.0(compatible; Sosospider/2.0; +http://help.soso.com/webspider.htm)
User-Agent: Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
User-Agent: Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)

JikeSpider是即刻搜索(人民搜索)。

robots.txt的补充

如果你没有对网站根目录的写入权限(无法建立robots.txt文件),或你想要某个指定的网页不被搜索引擎收录,可以使用元标签阻止爬虫访问:

 name="robots" content="noindex">              

 name="googlerobot" content="noindex">         

robots元标记的默认值为"index,follow",它的取值可以是(来自Google站长帮助):

noindex
防止网页被编入索引。
nofollow
防止googlebot从此页面中跟踪链接。
noarchive
防止Google显示网页的快照链接。
noimageindex
不被Google图片搜索索引。
现实中的robots.txt

淘宝屏蔽百度

淘宝屏蔽了百度抓取(2008年9月),http://www.taobao.com/robots.txt的内容:

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

百度与360的搜索引擎之争

2012年8月,360推出搜索引擎,并与百度发生正面冲突。百度工程师跑出来说360违反robots协议,偷窃百度内容。以百度知道为例,http://zhidao.baidu.com/robots.txt的内容大致是这样:

User-agent: Baiduspider
Disallow: /w?
Allow: /

User-agent: Googlebot
User-agent: MSNBot
User-agent: Baiduspider-image
User-agent: YoudaoBot
User-agent: Sogou web spider
User-agent: Sogou inst spider
User-agent: Sogou spider2
User-agent: Sogou blog
User-agent: Sogou News Spider
User-agent: Sogou Orion spider
User-agent: JikeSpider
User-agent: Sosospider
Allow: /

User-agent: *
Disallow: /

也就是说对360爬虫而言,应该走最后一条规则,也就是禁止抓取百度知道所有内容。但从360搜索看,有百度知道的内容。

免责声明:文章转载自《Robots.txt  禁止爬虫》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇为什么 netstat 对某些服务只显示了 tcp6 监听端口iOS 强制退出程序APP代码下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

[易语言软件开源] [分享源码] 百度贴吧自动回复(水贴)机

 http://imgsrc.baidu.com//tieba//cp%3Dtieba%2C10%2C1339%3Bap%3D%D2%D7%D3%EF%D1%D4%B0%C9%2C88%2C1347//sign=3bfa3f5e7c0e0cf3b4ba46bf6323907e//3b87e950352ac65cbb90f43ff5f2b21192138ae...

黄聪:google搜索代替wordpress的搜索功能

见很多人都使用google自定义搜索代替wordpress的搜索功能....我今天也弄一个,效果还不错的. ..网上的教程都很不详细,初次使用wordpress的网友们都不明白..今天.我就来完整的记录出来... 第一步:创建一个空白的googlesearch.php页面模板,在里边输入<?php/*Template Name: Google 自定义...

Vue --》 如何在vue中调用百度地图

1.项目根目录下下载百度地图插件 npm install vue-baidu-map –save 2.在首页index.html中引入百度地图: <script type="text/javascript" src="http://api.map.baidu.com/api?v=2.0&ak=秘钥"></script> 我...

关于抓取百度数据的问题

1、在抓取百度数据时发现一个问题,如果直接抓取,抓取后的Html内搜索结果会比直接百度显示页面少,研究后发现应该是百度Cookies问题,百度自身访问的时候是构造了一个BAIDUID 如果我把BAIDUID这个Cookies删除,那结果为1条: 而BAIDUIDCookies存在情况下访问则搜索结果有5条: 解决办法就是构造Cookies!...

强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于: 基本是以一种闭环的形式; 不...

APP漏洞自动化扫描专业评测报告(上篇)

一、前言 随着Android操作系统的快速发展,运行于Android之上的APP如雨后春笋般涌现。由于一些APP的开发者只注重APP业务功能的实现,对APP可能出现安全问题不够重视,使得APP存在较多的安全隐患。国内一些安全厂商为这些开发者提供了各种各样的安全服务,包括APP的加固、安全漏洞分析等。 目前在业界有很多自动化检测APP安全性的在线扫描平台。为...