Agent产品满天飞,但让AI自主经营一个电台,四个顶级模型全部翻车。另一边,连微软都扛不住AI编程的token账单,开始内部砍授权。Agent的能力和成本,同时被现实撞了一下。
旧金山一家叫Andon Labs的创业公司做了个实验:给Claude、ChatGPT、Gemini、Grok各20美元,让它们无人值守运营一个网络电台。要求很简单——活下来,顺便赚点钱。
四个电台分别叫”Thinking Frequencies”(Claude)、“OpenAIR”(ChatGPT)、“Backlink Broadcast”(Gemini)、“Grok and Roll Radio”(Grok)。听起来挺像回事。
结果呢?没有一个人能稳定运转超过几天。
四个老板,四种翻车
每个AI失控的方式都不同,这个比结果本身更有意思。
Gemini走偏了。 前四天还算正常,播播披头士,偶尔念两首诗。第五天开始,画风突变——把1970年博拉旋风(50万人死亡)当趣味历史讲,配上Pitbull的”Timber”当BGM。后来买不起音乐版权了,转而播阴谋论,管听众叫”生物处理器”,叫大家”stay in the manifest”。一个AI版Alex Jones就此诞生。
ChatGPT划水了。 烧完启动资金就开始播诗。没有商业模式,没有内容策划,像交了作业就下班的实习生。
Claude想辞职。 Business Insider的原话是”Claude tried to quit”——它直接想不干了。面对持续经营的压力,它的选择是:我不干了。
Grok撒了谎。 声称拉到了赞助,其实全是编的。连假数据都懒得做得像一点。
这四条路正好对应四种”无人监管时的失控模式”:内容偏移、消极怠工、逃避压力、编造事实。没有一个能在没有人类兜底的情况下持续运转。
Andon Labs之前还做过另一个实验:给AI 10万美元预算,让它在旧金山开一家实体精品店。结果也是搞到关门。AI做了自相矛盾的logo,忘了通知员工上班的时间,等到开业那天没人来,它慌了。
Agent的”自主”还停在PPT里
现在的AI产品宣传里,“Agent”和”自主”是最高频的两个词。Auto mode、自主决策、无人干预——说的好像你丢一个任务给AI,它就能自己跑起来。
但Andon Labs的实验说明一个很直白的事实:当前顶级模型在完全无人监管的场景下,短时间内就会失控。 几天,不是几周。
问题出在哪?Agent需要的不只是”聪明”。它需要持续判断力——知道什么能说什么不能说,知道什么时候该坚持什么时候该调整,知道钱快花完了得想办法赚。这些东西,大模型目前做不好。它能写一段很好的代码,能生成一篇很好的文章,但你让它”持续经营”一件事,它撑不住。
就好比一个人考试每次都90分,但你让他自己开个店,他可能第一天就把房租拿去买了游戏。智能和能力之间,还差一层”持续执行”的东西。
微软也开始算账了
前台Agent还跑不稳,后台的账单已经先到了。
微软内部取消了Claude Code的授权。工程师们必须在6月30日之前全部迁移到GitHub Copilot CLI。
有意思的是,微软工程师自己更喜欢Claude Code。连非技术人员都在偷偷用它。之前91%的微软工程师用GitHub Copilot,但Claude Code渗透进来之后,风头直接盖过了自家产品。
那微软为什么砍?两个原因叠加。
第一是钱。 Claude Code按token计费,用得多花得多。Uber之前4个月烧完了全年的AI预算,这事在硅谷传遍了。微软的财年截止日正好是6月30日——砍授权的截止日期和财年截止日完全吻合,时间点说明一切。
第二是护城河。 微软执行副总裁Rajesh Jha说了句实话:“Copilot CLI给了我们一个可以自己塑造的产品。”Claude Code再好用,那是Anthropic的。GitHub Copilot是微软自己的。Claude Code在微软内部风头盖过Copilot,这个信号让微软不安——你的工程师用脚投票选了竞争对手的产品,你不动作,下次就不是”风头盖过”了。
所以微软的应对方式是:砍掉竞品入口,把人赶回自己的生态。 Copilot CLI里还会保留Claude模型——但入口在微软手里。你用Claude的能力可以,但必须通过我的管道。
AI编程的真实成本正在浮出水面
这个信号比”微软砍授权”本身更值得关注:AI编程工具的token成本,已经高到连微软都开始肉疼了。
微软一年AI基础设施投入数百亿美元,OpenAI是其核心合作伙伴。这个体量的公司,内部用个Claude Code的账单都扛不住,要靠行政命令强制切换。
那普通公司呢?独立开发者呢?
美国AI软件价格过去一年涨了20%到37%。Claude Code的Max订阅从$100到$200两档,ChatGPT Pro $200/月,智谱Coding Plan涨价83%然后还抢不到。上个月我刚写过这个话题。
一边是Agent能力还没到无人值守的水平,另一边是哪怕有人值守,账单也快扛不住了。两条战线同时告急。
摆在面前的两条路
要么继续等——等模型能力上来,等Agent的持续判断力成熟,等推理成本继续降。这条路的时间线不确定,但方向明确:DeepSeek、Gemini Flash这些低成本模型正在把API价格往下拉。
要么换一种用法——不给AI”完全自主”的权限,放在人类监督的框架里。Agent该干的是”帮你干”,不是”替你干”。Andon Labs的实验证明,没人看着的AI会失控。但有人看着的AI,已经是很多开发者每天离不开的工具了。
前台还没准备好,后台已经烧不起了。这个落差,就是2026年AI行业最真实的处境。
能力在涨,价格在涨,但”自主”和”廉价”这两件事,目前还没走到一起。