大厂爬虫正在杀死互联网的小草

你的网站突然打不开了。CPU 100%，SSH 连不上，重启好了半小时又挂。

翻日志才发现，满屏都是同一个名字在疯狂刷你的站——一秒几十次，几百个 IP 同时上，7×24 不停。

来的不是黑客。是 Meta、Amazon、搜狗的 AI 爬虫，名字就挂在 User-Agent 里，光明正大告诉你：我在训练 AI。

跟搜索引擎完全两回事

Google 的爬虫讲规矩，你让它慢点它就慢点。AI 公司的爬虫不一样——Amazon 官方明确表示不支持 crawl-delay，翻译成人话：我不会减速，你的服务器死活跟我无关。

这跟 DDoS 攻击的区别在哪？唯一区别是它脸上贴着张名片写着”我是来训练 AI 的”。

Cloudflare 去年给了硬数据：字节跳动的 Bytespider 扫了 40% 的网站，OpenAI 的 GPTBot 扫了 35%。你想想，40% 的网站都被它扫过。

它们训练 AI 的成本自己扛，抓你数据的成本你来扛。CPU、内存、带宽、数据库连接，全吃你的。你的真实用户连进程都抢不到，网站直接不可用。

Google 付了 6000 万美元一年给 Reddit 买内容。大站能谈条件，你的小站呢？没人跟你谈，直接拿走。

你好不容易在服务器里封了这些爬虫，返回 403。它们照样发请求，照样占带宽，只是被挡在门外。日志文件里绝大多数都是这些被拒绝的垃圾请求。

今天封了这个名字，明天换个名字又来。大厂改一个 User-Agent 字符串花五秒，小站长发现、分析、封掉，要花一整天。

互联网的小草，正在被 AI 训练的收割机碾过。碾过去之后，甚至没人回头看一眼。

#AI爬虫 #互联网小草 #站长生存