国际科技财经移民娱乐民生时事体育

>

抛弃自回归，连接一致性Diffusion和LLM！UCSD上交新作热度紧追AF 3

抛弃自回归，连接一致性Diffusion和LLM！UCSD上交新作热度紧追AF 3

8月前

新智元报道

编辑：乔杨好困

【新智元导读】来自加州大学圣地亚哥分校和上海交通大学的几位研究者发表了他们关于「一致性大语言模型」的研究成果（Consistency LLM），使用Jacobi解码算法实现并行化并使用「一致性损失函数」，将文字生成速度提升了2.4-3.4倍。

DeepMind新发布的AlphaFold 3是科技圈今天的绝对大热门，成为了Hacker News等许多科技媒体的头版头条。

Hacker News热榜上紧随其后的则是今年2月发布的论文「一致性大语言模型」。

到底是什么样的成果，竟然可以顶着AlphaFold 3的热度出圈？

这篇论文不仅切中了大语言模型推理速度慢的痛点，而且实现了性能大幅度提升。

CLLM在多个下游任务上都取得了2-3倍的加速，且推理过程没有引入额外成本。在GSM8K和Spider两个任务中，相比今年1月刚发布的Medusa 2都有了明显提升。

论文的两位共同一作都是一年级博士生，分别是来自上海交通大学的寇思麒和来自加州大学圣地亚哥分校的胡岚翔，他们的指导老师是交大的邓志杰教授和UCSD的张昊教授，后者也是Vicuna/vLLM/Chatbot Arena等项目的作者。

目前这篇论文已经被ICML 2024会议接收，所用代码已在GitHub上开源，可以在HuggingFace仓库上看到模型多个版本的权重。

https://huggingface.co/cllm

https://github.com/hao-ai-lab/Consistency_LLM

LLM苦推理速度久矣

以GPT和Llama家族为代表的大语言模型虽然可以出色地完成人类语言任务，但代价也是巨大的。

除了参数量大，推理速度慢、token吞吐量低也是经常被人诟病的问题，尤其是对于上下文信息较多的任务，因此大语言模型的部署和在现实中的应用十分受限。

Reddit上经常有开发者询问减少LLM推理时间的方法，有人曾经发帖，在64G GPU内存、4块英伟达T4芯片上用langchain部署7B的Llama 2模型后，需要10秒钟回答较小的查询，较大的查询则需要3分钟。

为了提高推理速度和token吞吐量，研究者们想了很多方法，比如去年很流行的vLLM推理框架，就是通过改进注意力算法来提高语言模型的效率。

CLLM的思路则放在了解码上，使用更适合并行的Jacobi算法替代传统的自回归方法。

Jacobi解码算法

自回归解码算法在运行时，每次只能基于已知序列生成1个token，这种基于时间序列的算法对GPT之类的大模型非常不友好，要想实现并行化的推理，就必须修改模型架构或者添加额外的构件。

这篇研究则提出，使用Jacobi解码算法取代传统的自回归，每一次解码可以同时生成序列后n个token。

Jacobi解码源自用于求解非线性方程的Jacobi和Gauss-Seidel定点迭代，并被证明与使用贪婪解码的自回归生成相同。

给定一个初始序列时，首先生成n个随机token作为起始点，之后将这n个token的优化问题看作n个非线性方程组，里面含有的n个变量可以基于Jacobi迭代并行求解。

每一次Jacobi迭代可以预测出一个或多个正确的token，进行多轮迭代直至收敛，就完成了n个token的预测，迭代的过程形成Jacobi轨迹。

本篇文章所用Jacobi算法的灵感追溯至2021年的一篇论文，用求解非线性方程组加速神经网络计算。

论文地址：https://arxiv.org/pdf/2002.03629

以及张昊组的另一篇论文lookahead decoding：

论文地址：https://arxiv.org/pdf/2402.02057

一致性语言模型

使用Jacobi算法解码时，大语言模型的推理过程可以被归纳为——一致地将雅可比轨迹 𝐽 上的任何点 𝑦 映射到固定点 𝑦∗ ，而这个训练目标和一致性模型非常相似。

「一致性模型」最初由ICML 2023的一篇论文提出，作者是四位大名鼎鼎的OpenAI研究科学家：Ilya Sutskever、宋飏、Mark Chen以及DALLE3的作者之一Prafulla Dhariwal。

论文地址：https://arxiv.org/pdf/2303.01469

因此，这项研究提出在目标语言模型的基础上，联合两种损失函数来调整CLLM——一致性损失（consistency loss）保证同时预测多个token，自回归损失防止CLLM偏离目标语言模型，保证生成质量的同时提升效率。

实验结果也比较理想，CLLM方法确实可以在接近目标模型生成效果的同时，大幅加快生成速度，从原有的约40 token/s提升至超过120 token/s。

除了推理性能的提升，这种解码方法也在更抽象的层次上提升了LLM的能力。

由于不再是逐个生成token而是同时预测序列后面的n个token，CLLM似乎理解了一个重要的语言概念——词语搭配。

它会更频繁地生成固定的词组和术语，比如「与...交谈」，或者编程语言中「if...else...」这样的常用语法结构，这似乎也更符合人类使用语言的习惯。

参考资料：

https://hao-ai-lab.github.io/blogs/cllm/

https://news.ycombinator.com/item?id=40302201

https://www.reddit.com/r/MachineLearning/comments/15851sr/d_how_do_i_reduce_llm_inferencing_time/

https://aws.amazon.com/what-is/autoregressive-models/

微信扫码关注该文公众号作者

来源：新智元

相关新闻

Stable Diffusion 3 API 发布！超越Midjourney v6和DALL-E 3 UC伯克利「LLM排位赛」结果出炉！Claude 3追平GPT-4并列第一大温好热！这儿34.2度！BC省37个地方创高温纪录 “五一”这些城市不下雨！旅游热度上涨30%，部分酒店降价20%刚刚！温村附近接连4次强震高达4.5级！要热爆！大温39度内陆40度！30度高温！大温周末更热！一号高速改道封路！开往加国游轮遇这尸体小米汽车概念又爆了！有个股两天涨超36%！这些上市公司也想蹭热度高温42度！爸爸在家打电动3小时,2岁女儿困车上3小时活活热死金星28岁变性，两度离婚领养3个孩子，如今官宣上热搜！网友：走过半生仍是娱乐圈传奇丧心病狂！美国女子拍影片要3岁儿“和爸爸说再见”，下秒射杀儿子再自轰身亡 300万元→25万元！娃哈哈，热度已褪？惊爆！加拿大华人女子和闺蜜因转楼花闹翻！损失$30万！一个细节引发热议！马斯克豪掷40亿购10万张H100训Grok 3！自曝Grok 2下月上线，巨额博弈剑指OpenAI “3分钟热度”真的只能持续3分钟吗上身瞬间降温3-5度！“千元级”冰丝西服，凉感透气，40℃穿都不闷热，让你在夏天彰显男人气度.....限时3天！和胡兵一起打卡DFS购物节！大牌美妆、服饰低至4.5折！更有$12000抽奖豪礼相送，中奖率100%！海底捞自热饭3盒23.8；先科电蒸煮锅19.9；洁云绒触感抽纸24包35.9 1件穿3季！自带氛围感的开衫外套，遮肉显瘦，贼啦好看~华盛顿樱花两日游全盛最后两期出发！3/30和4/1出发，错过等明年！1件穿3季！自带日系少女氛围感的开衫外套，遮肉显瘦贼啦好看~成就了Sora和Stable diffusion 3的DiTs，究竟是啥因迷恋女教授，中国留学生肉麻表白狂追3年！结果令所有人后怕不已......不愧是央妈推荐，全网热销3亿+！适合办公人群的护腰正姿坐垫，久坐8小时也不累！60款大牌同源香型，99元3支！还原度98%，高级持久，让穿搭进入Next Level~