智谱开源 CogAgent-9B-20241220:提升 GUI 感知与多语言交互能力
智谱最新开源的 CogAgent-9B-20241220 模型,类似于 Claude Computer use,在多个方面实现了显著提升。
新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。
此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。