Bendi新闻
>
DeepMind升级Transformer,前向通过FLOPs最多可降一半
DeepMind升级Transformer,前向通过FLOPs最多可降一半
8月前
机器之心报道
引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。
论文标题:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models 论文地址:https://arxiv.org/pdf/2404.02258.pdf
设定一个静态的计算预算,该预算低于等价的常规 Transformer 所需的计算量;做法是限制序列中可参与模块计算(即自注意力模块和后续的 MLP)的 token 数量。举个例子,常规 Transformer 可能允许序列中的所有 token 都参与自注意力计算,但 MoD Transformer 可限定仅使用序列中 50% 的 token。 针对每个 token,每个模块中都有一个路由算法给出一个标量权重;该权重表示路由对各个 token 的偏好 —— 是参与模块的计算还是绕过去。 在每个模块中,找到最大的前 k 个标量权重,它们对应的 token 会参与到该模块的计算中。由于必定只有 k 个 token 参与到该模块的计算中,因此其计算图和张量大小在训练过程中是静态的;这些 token 都是路由算法认定的动态且与上下文有关的 token。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
前百度高管景鲲在美国创立的AI搜索公司获4.35亿首轮投资;谷歌DeepMind开发新AI,可为视频生成配乐和对白丨AIGC日报残忍真相!来澳中国游客数量“断崖下跌”,仅为疫情前一半!专家呼吁简化签证手续[吵翻]特鲁多称手机费已腰斩降一半!网友:撒谎,我们恐不在同一个加拿大特鲁多称手机费已腰斩降一半!网友:撒谎,我们恐不在同一个加拿大吵翻!特鲁多称手机费已腰斩降一半!网友:撒谎,我们恐不在同一个加拿大你们男神新剧爆了,可一半人都在骂韩剧又一爆款!收视率杀疯了,可一半人都在骂…25年美高网申开放!超一半全美前50美高要求SSAT!(内附详细名单)重磅 | 特鲁多加税两百亿!加元或跌至美元一半!降息将毁了加拿大经济?离奇!女子在ATM前转账到一半 货车突然“暴冲而来”挑战OpenAI,微软自研5000亿参数绝密武器曝光!前谷歌DeepMind高管带队谁能买得起?2024全球十大最“难以负担”房价城市,前十名美国占一半,中国这一城市居榜首“被新西兰割韭菜了!”NZ移民局官宣:工签政策大变!立即生效!学签通过率竟不到一半!?英国首相宣布前大选!支持率差一半硬要强上,这是豪赌还是摆烂?GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智吓破胆!美载51人客机飞一半,机舱里全烟!此前飞奥兰多航班也发生...裸睡伴侣!这条艾草“凉感被”火了,瞬间降温4℃,夏天电费省一半英央行: 维持利率,但降息在即! 新建住房将降至官方目标一半. 周末高温预警商场前顶流被传“要凉”,一半人扫货一半人骂奥运开幕前,我带8岁女儿游巴黎,期待落空一半?破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍“绩效降低一半还多啊,这一波也太狠了”,银行业降薪引热议,我们分析了42家A股上市银行年报发现……6月降息要凉凉?!加币恐跌至美金的一半!加拿大经济危机才刚刚开始澳洲家庭疫情前卖房,如今惨到租不起房!跑到加拿大,房租减一半?