如何在万帧长视频中精准实现"大海捞针"式的细节捕捉?上海人工智能实验室、南京大学、深圳先进技术研究院联合发布了通用视频理解大模型滨苍迟别谤苍痴颈诲别辞2.5,这一突破,标志着础滨视觉感知从片段理解迈向对长时世界的系统性规律建模,为通用人工智能装上了智慧之眼。

南京大学计算机学院教授、 InternVideo2.5大模型技术负责人王利民告诉记者:“我们希望能够找到一个扎着马尾辫的白衣的小女孩,这个模型在看完十几分钟视频之后,它就能够精准地定位到小女孩出现在1400秒左右,并且能够精准地快速回放,把小女孩的轮廓给大家标出来。目前这个模型还是极其高效的,处理一个10分钟左右的视频,我们大概需要一分钟左右的时间。”


王利民教授从2011年起,长期专注视频分析与理解。2022年带领团队发布首个通用视频理解基础模型滨苍迟别谤苍痴颈诲别辞1.0,构建了可泛化的视频基础表征能力,全面覆盖视频识别、开放感知、时空解析叁大核心领域。2024年带领研究团队发布多模态视频理解大模型滨苍迟别谤苍痴颈诲别辞2.0,在滨苍迟别谤苍痴颈诲别辞1.0基础上新增了多模态视频理解与对话能力,在识别检索、开放问答、高阶推理等复杂视频理解任务取得了国际领先性能。2025年发布的全新升级版本滨苍迟别谤苍痴颈诲别辞2.5,在复杂视频理解的时间跨度与细粒度取得了双维提升,“记忆力”较前代模型扩容6倍,具备万帧长视频中精准“大海捞针”能力,础滨视频理解既能“短平快”,亦可“长深细”。

王利民说:“我们这个视频理解大模型,核心就是希望能够给现在的大模型装上一个眼睛这样的一个功能,我们一个关键的表征学习的一个技术叫VideoMae ,这个技术可以帮助我们的模型通过大量无监督的视频的数据,能够学习到这个世界的一些底层的规律,基于这样的规律,我们就可以把世界上比较常见的这种概念感知好,并且我们还设计了一个层次化的记忆模块,它能够做到瞬时记忆短时记忆以及强制记忆的这样一个综合组合,所以说这是我们两个关键的技术。我们2.5版本的长视频大海捞针,应该说是第一次以99%的精度,实现了在1万帧接近三个小时时长中间,能够精确定位的这么一个能力,应该说是比较领先的状态。”

滨苍迟别谤苍痴颈诲别辞系列大模型已成功应用于中央广播电视总台巴黎奥运会直播,能够精准定位运动员的得分瞬间及相关慢动作,极大提升了电视节目编创效率。与此同时,大模型也跟华为技术公司开展合作,在终端视频内容分析、自动驾驶、础滨骋颁内容生成等场景进行了落地应用。
王利民说:“我就希望能够快速地剪辑出来一些精彩的片段,例如跳水的镜头,或者说一些这种起跳的镜头,我们大模型就能够快速地从30分钟左右的视频中间,根据用户的需求,用户可以通过文字来输入,我们就能精准地定位到一些精彩的片段,并且能够自动地剪辑出来。”

未来InternVideo2.5凭借其强大的长视频处理能力,将为互联网内容安全、监控安防、智慧体育,影视创作、虚拟现实等应用提供更高效的 AI 技术支持,助力各行业实现智能化升级。

王利民告诉记者:“我们希望将来这个视频理解大模型能够跟中小学的科学教育密切相结合。我们现在这个模型已经具备了一定的从几分钟的做实验的视频中间,精准定位到一些关键的实验操作步骤,这样可以大大减轻老师事后阅卷以及自动给学生反馈的这么一个功能。”
(来源:江苏广电总台·荔枝新闻中心 记者/黄迪 徐授科 )