[COLING 2024教程] 多模态大语言模型MLLM系列教程

8月前

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

近年来，随着大语言模型（LLMs）的出现（如OpenAI的ChatGPT系列，Meta的LLAMA系列，以及Flan-T5、Vicuna和Alpaca等等），全世界目睹了人工智能（AI）前所未有的智能能力。这些LLMs在理解语言方面展示了卓越的能力，预示着实现真正的通用人工智能（AGI）的日期不远。但实际上，我们人类生活在一个包含视觉、听觉、感觉等多种信息模态共存的世界里。这赋予了研究LLMs多模态感知和理解能力的必要性，以更快更好地实现与人类类似水平的AI，即AGI。这催生了多模态大语言模型（MLLMs）研究话题和热点。MLLMs通过启用多感官学习，使多模态以及多任务能力相辅相成。研究人员在文本LLMs前后增设了额外的编码器和解码器以接收其他模态的输入甚至生成，推动了如BLIP-2、Flamingo、Visual-ChatGPT、MiniGPT-4、LLaVA、PandaGPT、SpeechGPT、Emu、NExT-GPT、Gemini等一系列MLLMs的火热发展。通过相关的survey可以看到，仅2023年一年，各种新颖的MLLMs喷涌而出，揭示了多模态大语言模型研究研发热潮以及其重要性。

在这个MLLM教程系列中，我们将深入探讨MLLMs的最新进展，旨在面向各类相关研究群体，尤其是初学者们提供一个全面的、深入的MLLM的介绍，以帮助构建更强大、更高效、更接近人类智能水平的MLLMs和系统。

教程团队来自于新加坡国立大学、上海交通大学以及马里兰大学的各名学者，其都在MLLM方向上具备丰富的研究经验。

教程相关的所有资料将会公开发布到：https://mllm2024.github.io/COLING2024/

教程的内容将包括四个关键部分；这也是我们共同的认识：要实现更强大的MLLMs则需要注意以下四个方面：

● 首先是MLLM的架构设计，我们将详述设计能够无缝整合多种模态的前沿架构的方法，使MLLMs能有效处理各种感官输入。

● 其次是多模态指令微调学习，我们将深入指令学习的复杂性，讨论用于准确地按照人类指令在多模态下训练模型的方法和策略。

● 第三是多模态推理，我们将介绍多模态推理背后的技术和方法论，这使MLLMs能够利用它们的认知能力执行跨不同模态的复杂推理任务。

● 最后是MLLMs的效率问题，我们将简要概述高效模型开发，探索构建能够平衡性能与计算资源的MLLMs的策略，使其更广泛地适用于研究应用。

对于每个部分，我们将充分介绍现有技术和研究的进展，并同时指出现存的挑战，最后分别展望未来可能的方向。

第一部分：MLLM架构设计

这部分我们主要探讨：“当前MLLMs的架构是什么？MLLMs支持哪些模态和功能？MLLMs可以如何分类？下一代MLMs将会是什么样子？” 本部分的主讲者为Hao Fei（费豪）和Yuan Yao（姚远）, 均来自新加坡国立大学。

Hao Fei (http://haofei.vip/) 为新加坡国立大学的博后研究员，兼任Skywork AI联合研究员。其研究方向为视觉语言学习、多模态大语言模型、自然语言处理。代表作为NExT-GPT、Vitron等系列的通用统一MLLMs，为下一代通用多模态大模型的形态奠定了基础。近年来在大模型和多模态学习方面的研究成果发表在顶级会议期刊论文，谷歌学术被引超3000次，H指数33。曾获得2022年中国中文信息学会优秀博士论文奖励、2023年世界人工智能大会云帆奖明日之星，常担任社区顶级会议（如ICML、NeurIPS、ACL、AAAI、IJCAI、MM）的领域主席、高级程序委员或会议组委会，以及期刊（如ACM TALLIP和Neurocomputing）编委。

Yuan Yao（https://yaoyuanthu.github.io）的研究方向为多模态大语言模型、自然语言处理。代表作为MiniCPM-V系列高效端侧多模态大模型、VisCPM多语言多模态大模型等，相关成果Google Scholar 引用量 3000 余次, 相关模型在国际开源平台下载量13万余次。近年来在多模态大模型方面发表多篇顶级会议期刊论文，相关成果入选 ICLR Spotlight、ECCV Oral、Nature Communications Editors' Highlights 等亮点推荐专栏。构建多模态大模型MiniCPM-V，在国际开源平台Hugging Face 60万余模型中，连续多天登上Trending榜单前三名（其余2名为Meta Llama3系列模型），连续十余天登顶多模态大模型Trending榜单。曾获清华大学计算机系优秀博士及本科毕业生、清华大学综合优秀一等奖学金、腾讯犀牛鸟精英人才培养计划一等奖学金等。博士学位论文《基于多模态大模型和结构化知识的图文理解方法研究》获 2023 年度吴文俊人工智能科学技术奖优秀博士学位论文奖。

本部分会给出现有的MLLM的通用技术框架，并总结归纳现有MLLM的模态和功能支持情况。

并将探讨下一步MLLM的发展方向。

第二部分：多模态指令微调学习

这部分主要探讨：“为什么我们需要多模态指令调整？多模态指令调整的训练策略有哪些？我们如何获取高质量的指令调整数据？当前多模态指令调整面临的挑战是什么？” 本部分的主讲者为Fuxiao Liu （刘赋骁）, 来自马里兰大学，帕克分校。

Fuxiao Liu (https://fuxiaoliu.github.io)目前是马里兰大学帕克分校计算机科学学院的博士研究生。他的研究兴趣包括视觉与语言任务，包括图像/视频captioning、多模态语义对齐、事实核查和文档理解，最近的研究重点是构建可定制的大型模型，以对齐人类意图。他的研究成果已发表在多个顶级会议上，诸如CVPR、ICLR、EMNLP以及EACL，其中代表作包括HallusionBench、MMC。他曾在多家公司实习，包括Adobe Research、腾讯AI实验室和微软研究院。

第三部分：多模态推理

这部分我们主要探讨：“最新的多模态推理研究有哪些范式变化？思维链技术如何增强多模态推理？多模态智能体有哪些发展，如何用于复杂任务求解？在推进多模态推理方面还有哪些关键挑战？” 本部分的主讲者为Zhuosheng Zhang（张倬胜）, 上海交通大学长聘教轨助理教授。

Zhuosheng Zhang（https://bcmi.sjtu.edu.cn/~zhangzs/）的研究方向为自然语言处理、预训练语言模型、自主智能体与安全。代表作为Auto-CoT自动思维链推理、MM-CoT多模态思维链推理和SemBERT语义增强的语言模型。近年来在大规模预训练模型、多模态推理、大模型安全等方面发表多篇顶级会议期刊论文，论文总被引超过4000次，多篇文章入选全球高影响力论文列表，开源成果在GitHub社区获得超过9000星标。入选中国中文信息学会优博、世界人工智能大会云帆奖明日之星、全球AI华人百强学术新星。曾在日本国立情报研究机构（NICT）、澜舟科技、微软雷德蒙德研究院、亚马逊云科技实习或访问。担任领域内重要会议ACL Rolling Review执行编委，LREC-COLING 2024领域主席、中国计算语言学大会CCL 2022分委会主席。

第四部分：MLLMs效率问题

最后这部分主要探讨：“什么是最高性能、高效的MLLM架构？如何选择和组织数据来构建强大的MLLM？有无训练策略来高效构建新的MLLM或扩展功能范围？” 本部分的主讲者为Ao Zhang（张傲）, 新加坡国立大学三年级博士生。

Ao Zhang（https://waxnkw.github.io/）的研究方向为多模态大语言模型，多模态提示学习等。代表作为高效多模态大模型构建框架VPGTrans，可以定位检测分割的多模态大模型NExT-Chat，多模态提示学习方法CPT等等。近些年来在多模态理解领域发表多篇论文，论文发表在NeurIPS，ICML，ECCV，EMNLP等多个国际顶尖会议。谷歌学术总引用量超过1000。

我们将本MLLM教程做出了一个系列，并会在未来的相关会议上陆续展开。本次教程我们背靠COLING 2024（https://lrec-coling-2024.org/）给出。COLING 2024会在5月20号到25号期间，意大利都灵举办。本教程的时间是21日，当地时间14:00-18:00（对应北京时间：21日，20:00-24:00）。欢迎感兴趣的同学们通过线上或者线下的方式积极参与。