里程碑时刻，首个100B扩散语言模型来了，技术报告揭秘背后细节

扩散语言模型（dLLM）在短时间内实现了从16B到100B参数规模的飞跃，展现出超越传统自回归模型的潜力。蚂蚁集团联合多所高校推出的LLaDA2.0系列模型采用MoE架构，在多个复杂任务上表现优异。通过持续预训练策略和系统化后训练流程，成功将AR模型平滑转化为dLLM，并解决了长文本生成效率低下的问题。

来源：36氪