你的网站突然打不开了。CPU 100%,SSH 连不上,重启好了半小时又挂。
翻日志才发现,满屏都是同一个名字在疯狂刷你的站——一秒几十次,几百个 IP 同时上,7×24 不停。
来的不是黑客。是 Meta、Amazon、搜狗的 AI 爬虫,名字就挂在 User-Agent 里,光明正大告诉你:我在训练 AI。
跟搜索引擎完全两回事
Google 的爬虫讲规矩,你让它慢点它就慢点。AI 公司的爬虫不一样——Amazon 官方明确表示不支持 crawl-delay,翻译成人话:我不会减速,你的服务器死活跟我无关。
这跟 DDoS 攻击的区别在哪?唯一区别是它脸上贴着张名片写着”我是来训练 AI 的”。
Cloudflare 去年给了硬数据:字节跳动的 Bytespider 扫了 40% 的网站,OpenAI 的 GPTBot 扫了 35%。你想想,40% 的网站都被它扫过。
你在替 AI 巨头买单
它们训练 AI 的成本自己扛,抓你数据的成本你来扛。CPU、内存、带宽、数据库连接,全吃你的。你的真实用户连进程都抢不到,网站直接不可用。
Google 付了 6000 万美元一年给 Reddit 买内容。大站能谈条件,你的小站呢?没人跟你谈,直接拿走。
封了也没完
你好不容易在服务器里封了这些爬虫,返回 403。它们照样发请求,照样占带宽,只是被挡在门外。日志文件里绝大多数都是这些被拒绝的垃圾请求。
今天封了这个名字,明天换个名字又来。大厂改一个 User-Agent 字符串花五秒,小站长发现、分析、封掉,要花一整天。
互联网的小草,正在被 AI 训练的收割机碾过。碾过去之后,甚至没人回头看一眼。
#AI爬虫 #互联网小草 #站长生存