Bendi新闻
>
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
新智元报道
新智元报道
【新智元导读】Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon,能够处理无限上下文,在2万亿token训练任务中,性能超越Llama2-7B实现了非凡的效率。
GPT-3发布以来最大里程碑
革命性架构,训练更稳定
2T token训练,性能超越Llama2-7B
一些感想
这个工作从有想法到最终完成,经历了近两年的时间。期间经历数次失败,也学习到了很多大规模预训练时代正确做科研的方法。
对于两个不同模型架构的比较必须要在数据完全相同的条件下才有说服力。当数据不同的时候,哪怕不同的比例很小(<10%),最后的结果也可能有明显的差别。包括training loss和下游任务的结果,都受到训练数据的很大影响。
对于不同的架构,一定要在模型得到充分训练的条件下的比较才有意义。例如对于7B大小的模型,2T的训练数据几乎是基本要求。有的模型可能在数据少的时候表现的很好,但是数据规模增大后反而落后其他模型。因此,对于大模型架构的比较,结果有说服力的前提是充分的训练。
对于架构差别很大的模型,传统的基于flops的scaling law的比较意义在降低。原因是两个不同架构的模型,即使有相同的flops,他们的实际速度可能差几倍。这个和架构算法本身是不是适合在最先进的GPU上计算有很大的关系。因此,真正贴合实际的比较方法是像本文中那样分成数据学习效率和计算效率两个方面。但是这样在实际中对于研究员的工程能力有很高的要求。在大模型时代,新算法的开发已经和系统等方面高度结合在一起。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
Meta革命新架构掀翻Transformer!无限上下文处理!做了2万款手游后,小游戏大佬豪斥40亿元、“掀桌子”闹革命!最新后续!微软全球瘫痪影响仍在持续!仅新州损失超2亿澳元!IT故障影响850万Windows设备!海关、银行、机场全取消...欧洲版OpenAI又要融资!估值50亿美元,Llama 2“套壳”也能半年估值翻番?2万亿中信信托迎来新董事长!再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升联邦政府和新州政府联手发福利!斥资$2亿助力社会住房节能升级,数万家庭受益楼市利好!2万亿网红城市宣布:全面取消限购,买房就能落户,还有各种优惠、补贴!加大房票推广力度,组织地方国企收购部分存量商品房这东西比FSD更重要!如果特斯拉拿到手,很可能涨到2万亿!从时薪$2.65的洗碗工,到市值破2万亿!首位华人世界首富或许要诞生了1-26突发!2万亿平准!?亚马逊市值首次突破2万亿美元!贝佐斯富豪榜排名第二斥资2亿美元!新房地产投资公司在亚特兰大这个地方“悄悄买地”!占领2万亿日本市场!一场没有硝烟的战场上,中国玩法更高级?2万提新车!价格战杀疯了!超63%品牌退出这个市场......Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA爆惨!大多区60多个公寓楼花项目被无限期搁置!2万多套房悬了!开发商资金枯竭发达国家债券涨翻天,逾2万亿美元的新债或将煞风景蔚来、极氪等6月销量均创新高!2万辆成头部新势力新门槛?2万亿,准备救市!2万亿行业率先破局!ETF销售格局悄然转变Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍安省全民基本收入试点大出血!提前终止赔2亿!法律诉讼赔32万!专业!美国34岁妈妈「全职捡垃圾」2年赚近$8万!每周翻垃圾桶两到三次……