DeepSeek发布V3.2和V3.2-Speciale,证明了通过优化方法和数据而非单纯扩大模型规模来解决训练后瓶颈的可行性。V3.2引入稀疏注意力机制DSA,提高效率并融合思考与工具调用;Speciale则专注于深度推理,验证了过程监督可泛化至多个领域。两者共同展示了未来AI模型可能不再依赖人力堆砌,而是依靠自我博弈实现持续演进的趋势。 来源:36氪