阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理

阿里开源 VideoRefer:利用 LLM 实现视频对象感知与推理

VideoRefer 是阿里开源的一项专门用于视频中对象的感知和推理的技术。该技术包括数据集、模型和基准测试三大核心组件,能够对用户定义的区域进行细粒度的感知、推理和检索,支持单帧和多帧输入。简单来说,就是利用 LLM 来理解视频内容。目前,该模型的代码和模型均已开源。

来源:三花快讯

Back to top button