香港中文大学MMLab与美团研究团队开源OneThinker,一个基于RL的多模态视觉推理通才模型,覆盖图像与视频十类核心任务,在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法(如EMA-GRPO算法),OneThinker解决了传统RL模型在单一模态或任务上的局限性,展现了跨模态、多任务的通用理解和零样本能力,为实现通用视觉智能提供了新路径。 来源:36氪