新的AI模型,将GPU用量降低100倍
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。
在市场将索伦之眼转向 GenAI(例如 ChatGPT)之前,传统神经网络受到了大部分关注。这些类型的神经网络的特点是具有一些“短期”记忆,称为循环神经网络或 RNN。它们在 Apple Siri 或 Google Translate 等许多“智能”技术中继续使用,并且绝不过时。
最近,一篇新发表的,题为《RWKV: Reinventing RNNs for the Transformer Era》的论文描述了一种具有 GPT 级别 LLM 性能的 RNN,它也可以像 GPT Transformer(可并行化)一样直接训练,计算要求降低 10 到 100 倍。(即更少的 GPU)。
该论文描述了像 ChatGPT 这样的转换器如何彻底改变了几乎所有自然语言处理 (NLP) 任务,但却受到内存和计算复杂性的影响,这些复杂性与序列长度呈二次方关系(即,向模型添加更多内容,将需要更多内容平方更多的计算资源)计算)。
相比之下,循环神经网络 (RNN) 在内存和计算要求方面表现出线性扩展(即,向模型添加更多内容,将占用成比例/线性数量的计算资源)。然而,由于并行化和可扩展性的限制,RNN 很难达到与 Transformer 相同的性能。
本文提出了一种新颖的模型架构——接收加权键值(RWKV:Receptance Weighted Key Value),它将 Transformer 的高效并行训练与 RNN 的高效推理相结合。
初步结果相当惊人。从积极的一面来看,RWKV 方法提供了:
运行和训练时降低资源使用率(VRAM、CPU、GPU 等);
与具有大上下文大小的转换器相比,计算要求降低了 10 倍到 100 倍;
线性缩放到任何上下文长度(Transformer 以二次方缩放);
在回答质量和能力方面表现同样出色;
与大多数现有模型相比,模型通常可以更好地用其他语言(例如中文、日语等)进行训练;
RWKV 模型当前面临的一些挑战是:
对提示格式敏感;您可能需要更改提示模型的方式;
它在需要回顾的任务上较弱,因此相应地重新排列提示(例如,不要说“对于上面的文档,执行 X”,这将需要回顾。而是说“对于下面的文档执行 X”) );
RWKV ( wiki ) 也是 Linux 基金会下一项开源、赞助商支持的非营利项目。他们的目标是结合最好的 RNN 和 Transformer 技术,包括出色的性能、快速推理、训练、VRAM、“无限”上下文长度和自由句子嵌入;
此外,与 LLM 不同,RWKV 100% attention-free。
RWKV 等项目的影响是巨大的。RWKV 模型不需要购买(租用)100 个 GPU 来训练 LLM 模型,而是可以以不到 10 个 GPU 的成本提供类似的结果。
HuggingFace 上提供了预训练、微调的 7B 世界模型(在更大、更多样化的数据组合上训练的基本模型,其中包括来自 100 多种语言的样本,并且经过部分指令训练。)
原文链接
https://www.hpcwire.com/2024/01/29/new-alternative-ai-model-10-100x-less-gpus-but-same-results/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3661期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者