bc贷

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

长视频理解新突破!Mamba混合架构让显存消耗腰斩

2025-04-06 15:41:30
来源:

猫眼电影

作者:

黄志群

手机查看

  猫眼电影记者 付永生 报道y85ouztigy6ysf5y

Vamba团队 投稿量子位 | 公众号 QbitAI

Mamba混合架构视频模型来了,不再对视频token进行压缩——

而是通过改进模型架构设计的方式提升模型在训练及推理预填充阶段处理视频token的效率。

滑铁卢大学陈文虎团队与多伦多大学、零一万物、向量学院以及M-A-P的研究人员提出了一种新的Mamba-Transformer混合模型Vamba。

通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以上,并且可实现单步训练速度的翻倍。

同时,该方法完整保留了原始视频的时空特征,避免传统方法因降采样或池化操作导致的关键动作或场景的信息丢失。

在多个长视频的评价标准上,Vamba保持了高准确率和出色的性能,尤其在LVBench长视频理解基准上相较先前的高效长视频理解模型达到了约4.3%的性能提升。团队现已开源Vamba模型的代码、模型权重以及训练、推理脚本供研究社区进一步探索与应用。

核心方法

目前流行的多模态大语言模型多使用Transformer作为模型的基本结构,其中的因果注意力机制相对于输入的token序列长度存在二次时间/空间复杂度关系。

在长视频理解任务中,多模态大模型一般会将视频转化为一段极长的token序列,因此这些模型往往需要高昂的训练或推理成本。举例来说,一种较为流行的视频编码方式为使用CLIP或者SigLIP编码器将视频的每帧转换为约196个token。

基于这种编码方式,一个512帧的视频输入将会转换为约10万个视频token,从而造成极高的训练或推理复杂度。现有方法在处理这个问题时,往往采用压缩视频token数量的模型设计,即通过不同的压缩机制合并或删除一些非必要的视频token并缩短视频token序列长度,从而降低多模态模型在长视频理解任务上的资源消耗。

尽管相关研究已经取得了一定的进展,这些高效的长视频理解模型仍然存在一个共同的问题,即过度的视频token序列压缩可能会造成一定程度的信息损失。这使得目前的高效长视频理解模型在性能方面仍然与最顶级的模型存在一定差距。

Vamba的核心设计思路是将原本作用于整个视频+文本序列的运算成本高昂的因果自注意力运算操作分解为两个更为高效且协同操作的计算组件。

(1)在处理文字token的过程中,通过引入交叉注意力机制使文字token获得视频token的信息。此类操作的计算开销相比将文字与视频同时经由因果注意力模块处理更为可控,同时确保文本语义与视觉信息的高效对齐。

(2)针对海量的视频token,采用基于状态空间模型(SSM)的Mamba-2模块进行序列建模。该模块通过选择性扫描机制,在保持了更新视频token序列时可以检索全局序列信息的同时,将计算复杂度从Transformer的二次复杂度降至线性复杂度,从而突破了长视频序列的处理瓶颈。

如图所示,对于文字token输入,Vamba使用了因果自注意力机制和交叉注意力机制同时处理文字token,从而省去了视频token在因果注意力模块中所需要的计算成本。在此基础上,Vamba使用Mamba-2模块处理视频token序列,从而既保持了对视频序列的信息更新又将该操作所需要的复杂度控制在了线性范围。

研究团队通过不同帧数的视频输入,对Vamba与Transformer模型在训练与推理中的计算成本进行了比较。对比发现Vamba在长视频/高帧数输入的情景下(128帧及以上的视频输入),相比Transformer类模型达到了50%以上的运行时间与显存需求下降。同时,Vamba可以准确地描述视频内容,根据用户输入的问题对视频进行分析,并作出相应的回答。

总结

本文介绍了Vamba模型,一种专为高效理解超长视频设计的Mamba-Transformer混合模型。

该方法通过集成面向文本token的交叉注意力机制与面向视频token的Mamba-2模块更新策略,在显著降低计算复杂度与显存占用的同时,实现了对长、中、短视频理解任务的性能提升。基于LVBench等数据集的大量实验评估表明,Vamba在长视频理解任务中以4.3%的显著优势超越了现有的高效长视频理解模型,并在多个分布各个视频时常区间的基准测试中展现出了卓越的竞争力。

论文地址:https://arxiv.org/abs/2503.11579项目主页:https://tiger-ai-lab.github.io/Vamba/代码仓库:https://github.com/TIGER-AI-Lab/Vamba模型权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B

??时事1:朱竹清拨开胸罩露出奶头

??04月06日,解放军报社论:全面提升新兴领域战略能力打好实现建军一百年奋斗目标攻坚战,

  另外加强心理素质教育对于毕业班学生来说非常重要。让他们知道“狭路相逢勇者胜”,中考是选拔考试,是一场竞争,要消除恐惧心理、紧张心理,要以良好的心态参加每一次考试。让他们意识到“七减一等于零”,不能偏科,“失误就是失败”不能存在侥幸心理,偏科必将与理想高中失之交臂,原谅平时的“失误”,必将造成中考的失败,平时要严格要求自己,不允许出现失误。让他们明白“天生我材必有用”,社会的发展和建设需要各类人才,即使成绩糟糕,但多学些知识,有了良好的习惯,走向社会只会受益,只有人人想学,班风才能正,学风才会浓。

,亚洲国产精品无码一区二区白鹿。

??04月06日,台湾“龙先生”广州繁育科莫多龙,

  安全是什么?安全是一种态度。安全,对我们氯行业来说是放在首位的,我们经常讲“安全第一”。这就是我们的态度,也是我们的原则。安全是保证我们事业顺利完成的法宝,安全是我们取得效益的前提,安全对我们来说至关重要。因此我们就要事事讲安全、时时讲安全,不重视安全的后果是无法估量的、是要付出沉痛代价的。把生命握在自己手中,就是要自觉地把安全提取到“天”字号的位置上,认真学习安全规程,积极接受安全培训,只有思想上多一道防线,安全上才能多一分保障,坚决克服侥幸心理和麻痹思想,当侥幸心理闪现时请想一想:父母双鬓的白发,妻子牵挂的眼神,孩子睡梦中那甜甜的微笑,难到一切还不能打动那浮燥的心吗?当麻痹思想抬头时,请再想一想:年迈的双亲需要你床前尽孝,贤惠的妻子需要你牵手人生,可爱的儿女需要你为她避日挡风,难道这一切还不能唤醒那麻木的神经吗?生命,一旦失去就不会再有回来的时候,还有什么比幸福地活着更可贵的东西呢?珍惜生活,爱护自我,把生命握在自己手中,去享受人间的天伦之乐,去感受人间的至爱与温情,这该有多好……

,莎莉娜的胸罩脱了,露出奶头,13岁女孩乳头发育特写,特级西西WWw44高清大胆图片。

??时事2:欧美另类⭕⭕⭕⭕XXXX脱垂

??04月06日,2023年安徽省粮食产量830.16亿斤 再创新高,

  石云峰非常激动与高兴,再这样下去,也许用不了二十天,只需半个月小不点就会成功,到时就能进行洗礼。

,美女裸体❌❌羞羞无遮挡网站,孕妇高潮XXXXX孕妇,giantess18XXXXHDvibeo。

??04月06日,村民发现四只“像猴又像鹰”的鸟!你认识它吗?,

高校校长新学期讲话 篇2

,男同GaYGAYS✅白袜体育,中国老师打屁股♥网站X,敌伦交换一区二区三区的背景故事。

??时事3:45番列车手游下载安装

??04月06日,浙江省智慧高速数据运营联合会成立 打破数据壁垒,

  一座枯崖立于海上,宏大无比,鲲鹏巢就筑在上面,自太古遗存至今,始终隐于汪洋间,无人得见巢中的盖世神通。

,cekc学生виДeo,美女露出胸男生狂揉摸,free❌❌❌国产麻豆。

??04月06日,大熊猫卖萌憨态可掬,

  “这才是柳神所说的搬血境真义吗?”小不点自语。

,米塔被❌吸乳,范冰冰被美男操到极致,莉莉艾扒开腿做❌同人游戏。

??时事4:porinئۇيغۇر

??04月06日,百余名设计师创意“龙”形展亮相天津,  2015年,杨慧调任贵州省疾病预防控制中心党委书记、副主任,2018年回到贵州省卫计委,任党组成员、副主任,当年11月任贵州省卫生健康委员会副主任,2020年8月任省卫健委党组书记,至此番任上被查。,91久久久久久精品国元产码,Gay FuckXXXXHD男男,杨幂的裸体❤。

??04月06日,飘香七十载,探访中国胡椒“兴隆之路”,

  “都给我停步,一边呆着去,还没完呢,等我们气顺了再谈!”石飞蛟道。

,崩铁花火被❌同人本子,动漫美女撒尿㊙️无遮挡,免费白丝jk乳。

责编:朱进因

审核:刘晓云

责编:方喆

相关推荐 换一换

Copyright (C) 2001- Dzwww   鲁ICP备09023866号-1

Sitemap