DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

DeepSeek-V3.2在复杂任务中表现出色，但存在token浪费问题。研究指出其GRPO算法存在长度偏见和难度偏见，导致模型生成冗长且不准确的回答。尽管DeepSeek已修正了难度偏见，长度偏见仍待解决。考虑到成本效益，DeepSeek-V3.2的价格优势显著，但128K上下文限制影响了进一步优化。

来源：36氪