Bendi新闻
>
​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!

​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!

2月前

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B模型。在众多主流 Benchmark 上表现良好,具有更好的识别、数学和推理能力。

项目主页:

https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构,提供了一个可扩展的组合框架。支持多种 Vision Encoders,如 EVA CLIP、SigLIP 等,以及多种 LLM Backbone,包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体:   

在这个餐厅中,Bunny-Llama-3-8B-V 理解并很好地描述了图片:

模型也有很强的OCR能力:          

场景理解能力:

在 Bunny 数据集上训练好的 Bunny-Llama-3-8B-V 已经开放下载:

GitHub: https://github.com/BAAI-DCAI/Bunny

HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V

Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V    

Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

预计会在未来发布性能更强悍的版本,STAY TUNED!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

来源:CVer

相关新闻

Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet全网首发!Llama 3技术剖析、微调、部署以及多模态训练最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了ICLR 2024 | 媲美DALLE-3!基座模型LaVIT刷榜多模态理解与生成任务扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来超越Llama-2!微软新作Phi-3:手机上能跑的语言模型梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单最全!LLaMA 3/2/1模型结构总览 & 亮点分析张俊林:我对LLAMA-3的一点看法!只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSRGPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题世界顶尖多模态大模型开源!又是零一万物,又是李开复港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。