Bendi新闻
>
LAMM:多模态指令微调数据集、框架、评测基准

LAMM:多模态指令微调数据集、框架、评测基准

10月前

最近,大型语言模型(LLM)因其在实现通用人工智能智能体(AI Agent)方面的出色表现而备受瞩目。蓬勃发展的开源 LLM 社区极大地推动了通过自然语言处理实现人机对话交互的代理系统的发展。

但是,人类与世界的互动不仅仅局限于文本,视觉等其他模态也同样重要。针对多模态大语言模型(MLLM),如 GPT-4V 和 Bard 等模型和应用,已经展示了它们在处理视觉信息方面的有效性。不过,这些研究的透明度不足以学术研究的需求。

来自上海人工智能实验室的学者推出该领域中最早的开源尝试之一,名为 LAMM(Language-Assisted Multi-Modal)。该项目提供了一个包含数据集、框架和基准的语言辅助多模态指导微调的开源平台。我们的目标是将 LAMM 发展成一个不断迭代和更新的生态系统,专注于训练和评估 MLLM,并进一步支持 MLLM 赋能 AI Agent 的平台和框架。

论文地址:

https://arxiv.org/pdf/2306.06687.pdf

项目地址:

https://openlamm.github.io

代码地址:

https://www.github.com/OpenGVLab/LAMM


LAMM 模型的多模态能力部分展示如下:

1. 阅读球场瞬息万变的动作

2. 强大的识别能力和知识检索能力
3. 敏锐的观察力
4. 三维空间导航



Dataset
作为第一批开源的多模态指令微调数据集,LLaVA-Instruct-150K、MiniGPT4 等工作采用了一种独特的方法,即使用 Bounding Box 作为图片替代输入 GPT4 API 生成和图片匹配的指令数据。同样,InstructionBLIP 通过模板重组现有的图像文本数据集,将其转换成对话形式。

然而,这些方法存在一些限制。首先,仅使用图片标签和边界框来表达图像信息是不够的,因为这些方法不能充分捕捉到图像的全部细节和复杂性。其次,预设的文本模板过于简单,可能导致模型过度拟合特定形式的数据。最后,这些方法仅限于图片模态,没有包含其他类型的模态,这限制了它们在多模态学习领域的应用范围。

我们进一步扩展了多模态指令数据集的生成方法,并包括了图片、点云等模态。LAMM 数据集可以分为三部分:基于图片内容的对话、基于通用知识的对话、基于视觉任务的对话。

除了标签和 bounding box,我们进一步引入物体属性、场景图等信息,然后调用 GPT API 生成多轮日常对话和单轮详细描述数据。

为了拓展多模态大模型对于感知等视觉任务的能力,我们进一步引入了分类、检测、视觉问答等任务,用模板将已有数据集重组为对话数据。

对于通用知识,我们将图片类别作为关键词调用 Wikidata 中的详细解释,作为上下文输入 GPT API,生成基于客观知识的对话数据。

LAMM 数据集一共包含了 180K 图片-指令数据对以及 10K 点云-指令数据对分别用于训练 2D 模型和 3D 模型。


Benchmark

虽然多模态指令微调技术已经实现了多模态交互能力,但面向多模态大型语言模型的评估仍是一个相对未开发的领域。为了填补这一空白,LAMM 项目提出了一个新的多维评估框架,该框架基于现有的视觉任务,并已对 LLaVA、MiniGPT4 等模型进行了零样本迁移评估。这种评估方法从更细粒度的感知层面对现有的多模态大型模型进行了测试。

此外,我们还开发了 ChEF 框架,进一步完善了对多模态大型语言模型的评价体系。这不仅包括扩展评估数据集和任务,还包括引入了 in-context learning 和 chain-of-thought 等测试模式。这些测试模式的加入使得评估机制变得更加全面和可靠。


网络框架

LAMM 采用了一种端到端的训练方法,对不同的输入模态使用了一个统一的框架。这个框架包括编码器、特征映射层以及基于 LoRA 的大型语言模型微调等核心组件。其代码架构灵活地支持单个或多个模态的输入。此外,这些组件也可以根据特定需求进行相应的调整或替换,提供了高度的定制化和适应性。


Open Source

基于多模态大型语言模型(MLLM)的强大功能和广泛的应用潜力,LAMM 项目致力于创建一个促进多模态大模型研究的开源社区。为了便利用户,LAMM 的代码库设计了统一的数据集格式、模块化的模型架构和简便的一键式分布式训练功能。这些特性使得用户能够轻松启动并定制自己的多模态语言模型。


结语

最近,大型语言模型在多模态领域取得了显著进展,展示出了令人瞩目的能力。作为这一领域的先行者之一,LAMM 项目不仅在 2D 和 3D 应用中探索了多模态语言模型的潜力,而且从应用角度对模型的性能进行了评估,为研究社区提供了重要参考。

此外,我们还开源了全部模型、数据集和训练、评测代码,以支持将这些代码应用于各种下游任务的训练中。我们期望这些资源能为后续的研究和开发工作提供有益的指导和帮助。关于 LAMM 的更多信息,欢迎访问我们的项目主页以了解详细内容。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走​Gemini终于赢了GPT-4o!Video-MME首个视频多模态基准来了!北航等提出超大规模多语言代码评测基准,涵盖40种编程语言最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU(4)中科院、人大、百川提出视频理解基准合成框架VideoNIAH11家银行理财公司复兴之路:规模回血、货架分化、基准下行、新品频出GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4同时操控手机和电脑,100项任务,跨系统智能体评测基准有了豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性39 项 Linux 基准测试:英伟达数据中心 CPU Grace 媲美 Threadripper 7000谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性考考大模型视频理解能力,中科院人大百川提出新基准合成框架[热议]德勤预测:2024年基准利率维持在4.25%!抄底房产为时尚早重磅 ◇ 德勤预测:2024年基准利率维持在4.25%!抄底房产为时尚早CoT提出者Jason Wei:大模型评估基准的「七宗罪」ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!锐评 | 美联储年内降息75个基点或为基准情形今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准财经早参丨国务院重磅!事关国有金融资本;贾跃亭:早日还债回国是我最大梦想;阿根廷央行下调基准利率至60%
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。