Bendi新闻
>
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
新智元报道
新智元报道
【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。
之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体!
人工智能独角兽AI21 Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型!
Jamba在多项基准测试中表现亮眼,与目前最强的几个开源Transformer平起平坐。
特别是对比性能最好的、同为MoE架构的Mixtral 8x7B,也互有胜负。
具体来说它——
是基于全新SSM-Transformer混合架构的首个生产级Mamba模型
与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍
实现了256K超长上下文窗口
是同等规模中,唯一一个能在单张GPU上处理140K上下文的模型
以Apache 2.0开源许可协议发布,开放权重
之前的Mamba因为各种限制,只做到了3B,还被人质疑能否接过Transformer的大旗,而同为线性RNN家族的RWKV、Griffin等也只扩展到了14B。
——Jamba这次直接干到52B,让Mamba架构第一次能够正面硬刚生产级别的Transformer。
Jamba在原始Mamba架构的基础上,融入了Transformer的优势来弥补状态空间模型(SSM)的固有局限性。
可以认为,这实际上是一种新的架构——Transformer和Mamba的混合体,最重要的是,它可以在单张A100上运行。
它提供了高达256K的超长上下文窗口,单个GPU就可以跑140K上下文,而且吞吐量是Transformer的3倍!
LLM新里程碑
内存占用量大:Transformer的内存占用量随上下文长度而扩展。想要运行长上下文窗口,或大量并行批处理就需要大量硬件资源,这限制了大规模的实验和部署。 随着上下文的增长,推理速度会变慢:Transformer的注意力机制导致推理时间相对于序列长度呈平方增长,吞吐会越来越慢。因为每个token都依赖于它之前的整个序列,所以要做到超长上下文就变得相当困难。
长上下文又出新选手
Jamba真正的独特之处
虽然也有一些SSM模型的初步样例,但Jamba是第一个生产规模的商业级模型。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
LSTM又火了!再次杀入视觉!xLSTM一举超越Mamba、Transformer!Transformer已死?Mamba强的离谱!性能突破Transformer!Mamba引爆AI圈超越Mamba、Transformer!TTT:全新架构来袭!Meta革命新架构掀翻Transformer!无限上下文处理!革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2Mamba再次击败Transformer!在视频理解任务中杀疯了!Mamba和Transformer合体!Jamba来了:超越Transformer!Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升马斯克官宣 Grok-1.5!超 GPT-4 16 倍上下文,推理能力超 DBRX,网友:赢在敢说!Mamba架构第一次做大!混合Transformer,打败Transformer强强联合!当RAG遇到长上下文,滑铁卢大学发布LongRAG,效果领先GPT-4 Turbo 50%马斯克官宣Grok-1.5!超GPT-4 16倍上下文,推理能力超DBRX,网友:赢在敢说!马斯克突发Grok 1.5!上下文长度至128k、HumanEval得分超GPT-4Mamba和超分辨率微信群成立!Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量200亿「书生·浦语2.0」正式开源!数推性能比肩ChatGPT,200K超长上下文完美召回超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTTMamba和超分辨率微信群来了!探索视频理解新境界!在12项任务中,Mamba先打败了TransformerFalcon Mamba来了!首个无注意力大模型!再次挑战Transformer!PointMamba迎来更新!Mamba在点云分析中是否能替代Transformer?Mamba真比Transformer更优吗?Mamba作者:我全都要!混合架构才是最优解!