Bendi新闻
>
国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题
国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题
7月前
编辑 | ZeR0
论文链接:https://is.gd/aGu0VV
▲Vitron整体框架
前端模块:视觉-语言编码。为了感知图像和视频模态信号并支持细粒度用户视觉输入,集成了图像编码器、视频编码器、区域框/草图编码器。
中心模块:核心LLM。采用Vicuna(7B,1.5)来实现理解、推理、决策制定和多轮用户交互。
后端模块:用户响应与模块调用。采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,不仅实现了系统统一,还确保了对齐效率和系统可扩展性。
用户响应输出,直接回复用户的输入。
模块名称,指示将要执行的功能或任务。
调用命令,触发任务模块的元指令。
区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于LLM的像素级理解,将输出由坐标描述的边界框。
▲图像指代图像分割结果
▲图像目标指代理解结果
▲视频QA结果
▲文生图
▲文生视频
▲图生视频
▲图像编辑结果
微信扫码关注该文公众号作者
来源:智东西
相关新闻
国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理一个悄然崛起的国产开源大模型!美国封锁开源AI!国产大模型还能卷多久?AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用全球开源新王Qwen2-72B诞生,碾压Llama3-70B击败国产闭源模型!AI圈大佬转疯了讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事国产大模型评测超GPT-4!李开复:十年内不会套现别再说国产大模型技术突破要靠 Llama 3 开源了巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024不玩“期货”的快手接棒Stability AI,国产之光可图大模型Kolors领跑开源生态中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户国产端侧小模型超越 GPT-4V,「多模态」能力飞升多平台公布微短剧备案细则,大模型掀起降价潮,苹果更新修复已删除照片复活问题,极星汽车遭退市警告,这就是今天的其他大新闻!新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测GPT-4 Turbo首次被击败!国产大模型拿下总分第一实测4款国产头部AI视频大模型:不及预期、差异明显全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了OpenAI停服,国产大模型免费用!开发者Token自由实现了