這些垃圾蜘蛛建議馬上屏蔽,它們可能是拖垮你網(wǎng)站的罪魁禍?zhǔn)?/h3>
|
![]() |
admin
![]() 2025年10月10日 13:44 本文熱度 747 |
上周三凌晨兩點(diǎn),我被服務(wù)器告警短信吵醒:“CPU使用率98%!”
我一個激靈坐起來——我的小破站日均訪問不到50人,誰在半夜“爆破”我?
登錄后臺一看,訪問日志里全是陌生IP,User-Agent(用戶代理)長得奇形怪狀:python-requests/2.28
、curl/7.68
、Go-http-client/1.1
……
還有一些自稱“蜘蛛”的家伙,比如 AhrefsBot
、SemrushBot
、MJ12bot
——但我一個中文小站,它們來干嘛?又不是英文SEO站!
后來才明白:我的服務(wù)器,正在被“垃圾流量”白嫖!
像 Google、百度、必應(yīng) 這些正經(jīng)搜索引擎,當(dāng)然一般不建議屏蔽,除非你確定不要它。
但下面這些“偽蜘蛛”,對中文站基本沒用,反而瘋狂爬內(nèi)容、占資源:
AhrefsBot
(SEO分析工具) SemrushBot
(競品分析) MJ12bot
(第三方SEO爬蟲) DotBot
(常用于采集) BLEXBot
(低質(zhì)量爬蟲)SemrushBot、MJ12bot、AhrefsBot、ZoominfoBot、YandexBot、
SurdotlyBot、DotBot、CCBot、ClaudeBot、SkyworkSpider、
serpstatbot、Amazonbot、gptbot、SearchBot、BLEXBot、
Brightbot、duckduckbot、
Twitterbot……
它們不帶來真實(shí)用戶,只干一件事:把你網(wǎng)站內(nèi)容扒走,喂給競爭對手或垃圾站,或者用于訓(xùn)練AI大模型等等。
除了假蜘蛛,還有大量用 Python
、curl
、Go
寫的自動化腳本,偽裝成瀏覽器瘋狂請求。
特征很明顯:
python
、curl
、http-client
它們的目標(biāo)?免費(fèi)采集你的原創(chuàng)內(nèi)容,轉(zhuǎn)手發(fā)到其他平臺,掙流量分成。
在你的 Nginx 配置里加一段規(guī)則:
if ($http_user_agent ~* "python|curl|Go-http-client|AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot") {
return 403;
}
?推薦位置:
1. 在代理站點(diǎn)server塊中添加(推薦)
# 代理站點(diǎn):clicksun.cn及其所有子域名
server {
listen 80;
server_name clicksun.cn *.clicksun.cn;
# 防范垃圾爬蟲 - 添加在這里
if ($http_user_agent ~* "python|curl|Go-http-client|AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot") {
return 403;
}
# 設(shè)置允許的最大請求體大小
client_max_body_size 100M;
client_body_timeout 360s;
location / {
proxy_pass http://172.16.11.15:80;
# ... 其他proxy配置
}
}
2. 如果要在所有server塊生效,可以放在第一個server塊中
# 在所有端口添加基礎(chǔ)防護(hù)
server {
listen 80 default_server;
listen [::]:80 default_server;
server_name _;
# 防范垃圾爬蟲 - 或者放在這里(對所有域名生效)
if ($http_user_agent ~* "python|curl|Go-http-client|AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot") {
return 403;
}
# 添加安全響應(yīng)頭
add_header X-Frame-Options "DENY";
add_header X-Content-Type-Options "nosniff";
# ... 其他配置
}
建議:
推薦放在第二個server塊(clicksun.cn對應(yīng)的塊),因?yàn)榈谝粋€server塊主要用于捕獲非法請求并返回444,這樣配置只會影響您實(shí)際運(yùn)營的網(wǎng)站,不會影響默認(rèn)server的處理邏輯。
重啟 Nginx,這些“假訪客”再訪問,直接返回 403 Forbidden,連 PHP 都不用跑,省下大量 CPU!
(SemrushBot|MJ12bot|AhrefsBot|ZoominfoBot|YandexBot|SurdotlyBot|DotBot|CCBot|ClaudeBot|SkyworkSpider|serpstatbot|Amazonbot|gptbot|SearchBot|BLEXBot|Brightbot|duckduckbot|Twitterbot|python|curl|Go-http-client
) 這個是完整版本
我加完規(guī)則第二天,CPU 使用率從 80%+ 直接降到 10%以下,服務(wù)器安靜得像圖書館。
而且真實(shí)用戶訪問速度更快了——因?yàn)橘Y源不再被垃圾流量搶走。
屏蔽不是目的,保護(hù)內(nèi)容和服務(wù)器資源才是關(guān)鍵。
如果你也是個人站長、小企業(yè)官網(wǎng)、博客主,不妨檢查下訪問日志——
說不定你的“高負(fù)載”,也是一群“看不見的賊”在作祟。