中科院、人大、百川提出视频理解基准合成框架VideoNIAH
介绍
为了解决这一问题,研究者们提出了 VideoNIAH,一个通过合成视频生成的基准构建框架。
论文链接:
项目链接:
“针”类型(Needle Type)的多样性:
编辑内帧(Edit):使用人为添加的字幕作为"针",这些字幕被嵌入到视频帧中,模拟了在视频中寻找特定文本信息的场景。 插入帧间(Insert):使用图像作为"针",这些图像作为静态片段插入到视频帧之间,考察模型对视频中静态图像的识别和记忆能力。 级别划分:根据图像的可识别性分为两个级别,第一级使用常见物体(如水果图像),第二级使用更具挑战性的地标图像/物体图像,增加了任务的难度。
视频"干草堆"(Video Haystack)的多样性
时间分布:VNBench使用的视频"干草堆"来自不同的数据源,视频时长从10秒到180秒不等,覆盖了短、中、长三种不同的视频长度,以评估模型对不同视频长度的适应能力。 内容覆盖:视频内容包含多种场景,确保了评估的广泛性和视频源的多样性。
查询(Query)的多样性
检索任务:要求模型从视频中检索出特定的"针",考察模型的细粒度理解和信息提取能力。 排序任务:要求模型识别并排序视频中所有插入"针"的时间顺序,考察模型对视频时间动态和事件序列的理解能力。 计数任务:要求模型计算视频中特定对象的出现次数,包括对单个帧内和跨帧的重复模式的识别和追踪,考察模型在时空维度上的理解能力。 任务分类:VNBench 的三个任务类型分别对应不同的视频理解能力评估,检索任务评估信息检索能力,排序任务评估时间推理能力,计数任务评估对视频内容的长期记忆和模式识别能力。通过这些设计,VNBench 能够全面地评估视频理解模型在多样化的视频内容和查询条件下的性能,为视频理解技术的研究提供了一个有力的基准测试工具。
实验及分析结果
专有模型与开源模型的性能差异:专有模型(如Gemini 1.5 Pro和GPT-4系列)在大多数VNBench任务上的表现优于开源模型。这表明专有模型可能拥有更优越的视频理解能力,这可能归功于更大的模型参数和更全面的训练过程。 任务难度与模型表现:模型在单针短依赖任务(检索任务)上的表现普遍优于多针长依赖任务(排序和计数任务)。这表明当前的视频模型在处理需要长期依赖信息的任务时仍然面临挑战。 排序任务的性能差距:在排序任务上,专有模型与开源模型之间的性能差距尤为显著。大多数开源模型在排序任务上几乎无法完成任务,这可能是由于它们在训练过程中忽视了时间序列建模的能力。 计数任务的困难即使是最先进的专有模型,在计数任务上的表现也不理想。特别是在需要检测和追踪视频中特定空间区域内的“针”时(Counting-E-2任务),所有模型的表现都很差,这表明当前的视频模型在理解和建模视频中的细粒度时空关系方面仍有不足。 视频上下文长度的影响随着视频处理时长的增加,开源模型的性能显著下降,而专有模型由于具有更长的上下文处理窗口,性能波动不大。这表明当前模型在处理长视频内容时的能力有限。 “针”位置的影响通过改变“针”在视频中的位置,研究发现专有模型由于其较长的上下文窗口,能够准确回忆所有插入的信息,而开源模型则表现出在长序列中对中间信息的回忆不足。
这些分析结果不仅揭示了当前视频理解模型的优势和局限性,而且为未来的研究提供了宝贵的见解,有助于指导视频理解技术的发展和改进。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者