港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

香港中文大学MMLab与美团研究团队开源OneThinker，一个基于RL的多模态视觉推理通才模型，覆盖图像与视频十类核心任务，在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法（如EMA-GRPO算法），OneThinker解决了传统RL模型在单一模态或任务上的局限性，展现了跨模态、多任务的通用理解和零样本能力，为实现通用视觉智能提供了新路径。

来源：36氪