Bendi新闻
>
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
4月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
张颢继:清华大学本科生,师从唐彦嵩老师,主要研究方向为视频理解。 王逸钦:清华大学深圳研究生院硕士生,师从唐彦嵩老师,主要研究方向为多模态学习。 唐彦嵩博士:清华大学深圳研究生院助理教授,主要研究方向为视频理解与 3D 生成。 刘镛:清华大学深圳研究生院博士生,师从唐彦嵩老师,主要研究方向为视觉分割、视频理解。 冯佳时博士:字节跳动视觉研究的负责人,他的研究领域包括深度学习及其在计算机视觉中的应用。 代季峰博士:清华大学电子工程系副教授,主要研究方向为视觉基础模型与自动驾驶。 项目 Leader,靳潇杰博士:现就职于字节跳动美国研究院,研究方向包括多模态基础模型、生成式学习、视频编辑等。
能够在线处理极长的视频流数据,快速记忆重要信息,实时回答用户提问。 随着输入帧数量的增加,显存开销和回答延迟几乎没有变化,实现了高效的长视频理解。 利用 STAR 记忆机制对不同粒度语义信息进行高效融合,在多个长视频问答 benchmark 上达到 SOTA。
项目主页:https://invinciblewyq.github.io/vstream-page 论文链接:https://arxiv.org/abs/2406.08085 代码仓库:https://github.com/IVGSZ/Flash-VStream 在线体验:https://huggingface.co/spaces/IVGSZ/Flash-VStream-demo
对于空间记忆和特征缓冲区,通过 FIFO(First-In-First-Out)队列更新。队列维护了最新的若干帧,确保模型对最新的细粒度空间信息有较强的感知能力。 对于时间记忆,当输入 token 数量超过记忆容量时,采用加权 K-means 聚类算法进行帧级别的特征聚合。该算法将时间记忆的 token 和新输入的 token 一起聚类为一些簇(簇的数量就是记忆容量,簇的大小是其所包含帧的数量),并用这些簇的质心作为新记忆,代表相应的关键事件信息。这种方法可以简洁高效地存储时序相关的上下文信息。 对于抽象记忆,引入了语义注意力模型(Semantic Attention),将空间与时间特征抽象成最高层次的语义特征。该模型用基于注意力和动量的方式更新抽象记忆,使其始终表示视频级别的高层次语义信息。 对于检索记忆,通过识别关键帧特征进行更新。首先从时间记忆中选择出最大的若干簇,然后从特征缓冲区中检索出与这些簇的质心 L2 距离最近的帧的特征,以此作为关键事件的回忆,为时间记忆补充相应的细粒度信息。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
可灵AI上线Web端,单次视频生成时长增至10秒;开源软件程序员对OpenAI和GitHub数字版权索赔被驳回丨AIGC日报LeCun上月球?南开、字节开源StoryDiffusion让多图漫画和长视频更连贯首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了没有等来OpenAI开源GPT-4o,等来了开源版VITACVPR 2024 竞赛冠军方案!复杂场景下的视频对象分割两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源早鸟报|视频号总用户时长同比增超80%;抖音电商一年治理超8000个虚假营销账号;美团闪电仓对违规“一店多开”从严治理...早鸟报|东方甄选开烤肠工厂直播;视频号总用户使用时长翻番;快手全年电商GMV达1.18万亿元...I-526时提供过第三国无犯罪记录证明,面签还需要重新开吗?|移投路群问答手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集LeCun登上月球?南开&字节新作StoryDiffusion:让多图漫画和长视频更连贯开源AI视频工具,你只需要当导演,HuggingFace工程师打造详解Latte:去年底上线的全球首个开源文生视频DiT抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发首个超越 GPT-4o 的开源模型提前泄露!Hugging Face 紧急 404 | 附下载链接Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩复刻Sora的通用视频生成能力,开源多智能体框架Mora来了成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言人物照片+文字 = 定制化视频,腾讯光子开源ID-Animator