当我给所有网站开启屏蔽垃圾爬虫后,我的服务器进入了低负载状态!

💻我用的是2C2G的阿里云的99元/年的服务器,应该看得出来用的是个宝塔面板,此刻这台服务器上运行着27个站点,🚫基本都是WordPress这种很耗资源的网站。

😤前几天我还是是不是100%负载和100%CUP,做了2项设置后直接稳定在低负载状态了!

算得上是我自己摸索出来的云服务器优化方法了,今天无私的分享给大家了。

✅其实就是我开启了Fail2ban和Apache伪静态拦截爬虫。

Fail2ban自己在宝塔的软件商店里安装就行了,免费的,给每个站点都开起来,开普通CC防御即可,这样通一个IP大量访问会马上被封IP,过一段时间又会自己放出来,对搜索引擎的蜘蛛影响不是很大。

❗由于我使用的是Apache而不是Nginx,所以我使用伪静态(.htaccess)来防御Amazon、Facebook、Semrush等这些高频爬虫的“攻击”

因为这些都不是搜索引擎的爬虫,而且频率又很高,应该是爬数据训练AI的,💢不能给我们网站带来流量的直接给它封掉。

🚩伪静态设置最上面加上这段即可:

<IfModule mod_rewrite.c>
RewriteEngine On

# 封杀 Semrush
RewriteCond %{HTTP_USER_AGENT} Semrush [NC]
RewriteRule ^ - [F,L]

# 封杀 Facebook / Meta
RewriteCond %{HTTP_USER_AGENT} (meta-webindexer|facebookexternalhit|ExternalFetcher|meta-externalagent) [NC]
RewriteRule ^ - [F,L]

# 封杀 Amazonbot
RewriteCond %{HTTP_USER_AGENT} Amazonbot [NC]
RewriteRule ^ - [F,L]

# 封杀 亚马逊 Amzn-SearchBot
RewriteCond %{HTTP_USER_AGENT} Amzn-SearchBot [NC]
RewriteRule ^ - [F,L]

# 封杀 Ahrefs
RewriteCond %{HTTP_USER_AGENT} Ahrefs [NC]
RewriteRule ^ - [F,L]

# 封杀 Majestic
RewriteCond %{HTTP_USER_AGENT} (Majestic|MJ12bot) [NC]
RewriteRule ^ - [F,L]

# 封杀 Sitechecker / Seoscout
RewriteCond %{HTTP_USER_AGENT} (Sitechecker|Seoscout) [NC]
RewriteRule ^ - [F,L]

# 封杀 华为花瓣
RewriteCond %{HTTP_USER_AGENT} PetalBot [NC]
RewriteRule ^ - [F,L]

</IfModule>

⭕还可以根据自己服务器上的网站日志,要封禁其它爬虫自己添加,可以把这个格式发给豆包,让豆包帮你添加进去。

Nginx我没有用过,你们可以自己查一查类似的方法封这些爬虫!

😀这样设置好伪静态后,这些UA的爬虫访问会直接返回403,不会调用PHP和MySQL,所以服务器压力会大幅下降!

0 comment AAuthor MAdmin
    No Comments Yet. Be the first to share what you think

You may also like

Profile
Cart
Coupons
Check-in
Message Message
Search