【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫

摘要:
自动获取web内容并可以根据指定规则提取相应内容的程序或脚本。恶意用户使用网络爬虫对web服务发起DoS攻击。恶意用户使用网络爬虫来捕获各种敏感信息。WAF)通过检测HTTP(S)请求保护您的web服务免受爬虫攻击。网站反爬虫(检查浏览器的有效性)和CC攻击保护(限制访问频率)可以帮助您全面解决商业网站遇到的爬虫问题。

反爬虫是一个复杂的过程,针对爬虫常见的行为特征,WAF反爬虫三板斧——Robot检测(识别User-Agent)、网站反爬虫(检查浏览器合法性)和CC攻击防护(限制访问频率)可以全方位帮您解决业务网站遭受的爬虫问题,协助您打赢与爬虫的持久战!华为云Web应用防火墙(Web Application FirewallWAF)通过对HTTP(S)请求进行检测,可以识别并阻断恶意爬虫扫描,让您的Web服务免受爬虫攻击,保护您的Web服务安全。

网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则,自动获取网页内容并可以按照指定规则提取相应内容的程序或脚本,已被广泛应用于互联网搜索领域。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第1张

网络爬虫为网络信息收集与查询提供了极大的便利,但同时也对网络安全产生以下负面影响:

https://bbs-img.huaweicloud.com/blogs/img/1587365426952067850.png络爬虫会根据特定策略尽可能多的“爬过”网站中的高价值信息,占用服务器带宽,增加服务器的负载。

https://bbs-img.huaweicloud.com/blogs/img/1587365432188045158.png恶意用户利用网络爬虫对Web服务发动DoS攻击,可能使Web服务资源耗尽而不能提供正常服务。

https://bbs-img.huaweicloud.com/blogs/img/1587365460794036521.png恶意用户利用网络爬虫抓取各种敏感信息,造成网站的核心数据被窃取,损害企业经济利益。

如果您的网站正在遭受爬虫侵扰,千万不要忍耐,是时候和爬虫来一场大战了!

 

华为云Web应用防火墙(Web Application FirewallWAF)通过对HTTP(S)请求进行检测,可以识别并阻断恶意爬虫扫描,让您的Web服务免受爬虫攻击,保护您的Web服务安全。只要您有域名,不管您的业务部署在云上还是云下,WAF都可以为您的业务保驾护航。

https://bbs-img.huaweicloud.com/blogs/img/1587365482695012146.png使用WAF前,您需要购买WAF这里https://bbs-img.huaweicloud.com/blogs/img/1587365501720082558.png,并将您的防护域名接入WAF这里

反爬虫是一个复杂的过程,针对爬虫常见的行为特征,WAF反爬虫三板斧——Robot检测(识别User-Agent)、网站反爬虫(检查浏览器合法性)和CC攻击防护(限制访问频率)可以全方位帮您解决业务网站遭受的爬虫问题,协助您打赢与爬虫的持久战!

还等什么,还不赶快把WAF反爬虫三板斧耍起!

WAF反爬虫三板斧神器来了

一板斧:开启Robot检测

检测和拦截恶意爬虫、扫描器、网马等威胁。

步骤1 进入“域名配置”界面,在目标域名所在行的“防护策略”栏中,单击“配置防护策略”,进入防护配置页面。

步骤2 在“Web基础防护”配置框,开启Web基础防护后,单击“高级设置”。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第7张

 步骤3 Web基础防护设置页面,开启Robot检测开关。【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第8张

当WAF检测到恶意爬虫、扫描器等对网站进行爬取时,将立即拦截并记录该事件,您可以在“防护事件”页面查看爬虫防护日志。【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第9张

----结束

二板斧:开启网站反爬虫

动态分析网站业务模型,结合人机识别技术和数据风控手段,精准识别爬虫行为。

https://bbs-img.huaweicloud.com/blogs/img/1587365637640056944.png 该功能依赖浏览器对javascript代码的解析,因此如果业务接口存在API调用的情况,建议不要开启该防护功能。由于CDN服务会缓存图片、静态资源等文件,如果您的业务接入了CDN服务,该特性将无法达到预期效果,并且有可能造成页面访问异常,建议不要开启该防护功能。

 步骤1  进入“域名配置”界面,在目标域名所在行的“防护策略”栏中,单击“配置防护策略”,进入防护配置页面。

 步骤2 在“网站反爬虫”配置框,开启防护。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第11张

开启该防护后,非浏览器的访问将不能获取业务页面。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第12张

----结束

三板斧:开启CC攻击防护

限制单个IP/Cookie/Referer访问者对您的网站上特定路径(URL)的访问频率,缓解CC攻击对业务的影响。

步骤1 进入“域名配置”界面,在目标域名所在行的“防护策略”栏中,单击“配置防护策略”,进入防护配置页面。

步骤2  在“CC攻击防护”配置框,开启防护后,单击“自定义CC攻击防护规则”。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第13张

步骤3 在“CC防护”规则配置页面左上角,单击“添加规则”。以IP限速为例,添加IP限速规则。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第14张

设置成功后,当用户访问超过限制后需要输入验证码才能继续访问。

【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫第15张

----结束

WAF除了反爬虫,还提供了网页防篡改防敏感信息泄露精准访问防护(这里的超链接:https://support.huaweicloud.com/usermanual-waf/waf_01_0010.html?utm_source=CSDN&utm_medium=ruanwen&utm_campaign=wafhelp&utm_content=yunxiaoke&utm_term=SEC-002)等防护功能,让您轻松应对各种Web安全风险~~

更多关于WAF的功能,戳这里https://bbs-img.huaweicloud.com/blogs/img/1587365926702023119.png 

安全无小事,时刻需警惕。2020,华为云普惠云安全,为您的网站、主机、数据提供免费云体检,还有一站式过等保贴心指导,赶紧戳这里https://bbs-img.huaweicloud.com/blogs/img/1587366265989059129.png了解详情吧!

点击这里,了解更多精彩内容

免责声明:文章转载自《【华为云技术分享】云小课 | WAF反爬虫“三板斧”:轻松应对网站恶意爬虫》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇python爬虫学习笔记(二十五)-Scrapy框架 Middleware基于Redis实现延时队列服务下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【转载】通过搜狗站长平台查看网站的搜狗流量及搜索关键字

无论是个人站还是企业站,都希望网站内容丰富后,网上用户可以通过搜索引擎搜索到网站的内容信息,其实如果站长已经入住了搜狗站长平台,则可以通过搜狗站长平台的数据监控功能中的查看流量和关键词的菜单来查看具体多少用户通过搜狗搜索查看到自己的网站,用户是用啥关键字通过搜狗搜索到自己的网站的,并且网站的搜狗流量是多少以及搜索结果的点击率等信息,方便网站的SEO优化。...

刷百度权重的方法!!刷百度权重不为人知的内幕!慎用!

刚刚接触网站的新手,都会关注百度权重。虽然百度官方没有承认百度权重的存在,但是随着谷歌退出中国,越来越多的站长开始关注百度权重。有人关注就会有市场,因此市面上就出现了很多刷百度权重的情况,然后把高权重网站卖给一些网站新手。 为了防止新手站长上当受骗,现在我为大家揭秘那些刷百度权重不为人知的故事。 百度权重本身是不存在的,第三方工具为了衡量网站与百度的友好度...

C#重启IIS指定网站和指定应用程序池

1 using Jinher.AMP.BTP.Deploy; 2 using Microsoft.Web.Administration; 3 using Redis.Helper; 4 using System; 5 using System.Collections.Generic; 6 using System.Configuration;...

蜘蛛池刷百度指数和第三方贴

作者:GoGo闯链接:https://www.zhihu.com/question/31172848/answer/126237914来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 介绍蜘蛛池和刷百度指数的科普贴。 利用大中型站点搜索结果页做外推,估计在大中型网站工作的同学都碰到过,把业务词(大多是业务+联系方式,如“办假证...

百度统计部分统计项

操作系统 访客浏览您网站时使用的操作系统名称。 百度推广 百度推广给您网站带来的流量及转化情况。您可以及时了解百度各类推广方式的效果以及这些效果是否达到了您预期的业务目标,从而帮助您更有针对性地改善百度推广方案。 Flash版本 访客浏览器程序中安装的 Flash 版本。 地域分布 各个地域带来的流量及转化情况。您也可以选择来源过滤,查看特定来源下,各地域...

数据库增量日志监听canal

概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司...