Bendi新闻
>
挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型

挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型

9月前

作者 | 李忠良
1 月 24 日,岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构,为非 Attention 机制的通用自然语言大模型。据了解,该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。

昨日,在 ROCK AI 大模型发布会上,Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。

首先,Yan 大模型在训练效率方面显示出惊人的成绩,据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内,Yan 可以处理和学习更多的数据,这对于加快 AI 模型的发展至关重要。其次,它的推理吞吐量是 Transformer 的 5 倍,这使得处理实时数据和复杂任务变得更加高效。最引人注目的是,它拥有 3 倍于 Transformer 的记忆能力,这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。

尽管 Yan 大模型是否会开源还有待确定,但其合作者已经可以免费使用这一架构,这无疑将促进技术的快速应用和发展。值得一提的是,基于 Yan 架构,仅需投入同等规模 Transformer 架构成本的 50% 甚至更低,就可以拥有百万参数级的大模型。

Transformer 架构的局限性

作为当前 AI 领域的一个基石,Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构,现今在人工智能领域占据主导地位。它能够有效处理序列数据,极大提高翻译、识别等任务的效果。

全球人工智能热潮的许多主要模型和产品,如 GPT、LLAMA、PaLM 等,都是基于 Transformer 构建的。其通用性显著,虽最初设计用于语言翻译,但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用,适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。

Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中,这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例,2-3 年前开始流行。在此之前,注意力机制只是模型的一部分,基于 LSTM(长短期记忆)和其他 RNN(循环神经网络)变体。

Transformers 的关键见解在于,注意力可以作为推导输入和输出之间依赖关系的唯一机制。

Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前,语言 AI 领域先进技术是 RNN,它按顺序处理数据,但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离,考虑单词间的关系,确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN,仅用 Attention 进行语言建模。

注意力机制最初在计算机视觉中提出,重点关注特定区域,忽略无关图像区域。它实现了语言处理的并行化,同时分析文本中的所有单词,而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解,以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点,能在更大的数据集上训练,使用更多参数。

尽管 Transformer 非常强大和通用,技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就,但它们存在一些局限性,这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括:

  • 参数数量庞大:Transformer 模型通常含有数百万到数十亿个参数,需要大量数据进行训练,以及昂贵的计算资源,包括高性能的 GPU 或 TPU。

  • 高昂的计算成本:标准 Transformer 模型在处理长序列时,其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加,计算资源和时间需求成指数级增长。同时,由于参数众多和复杂的层间交互,模型在训练和推理时还需要大量内存。

  • 长序列处理困难:Transformer 架构与序列长度呈二次方关系,处理更长的序列时,内存和计算需求急剧增加,使得处理长序列变得困难。

国内首个非 Attention 机制大模型——Yan 模型

面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性,科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型,一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上,刘凡平详细介绍了 Yan 模型的独特优势和技术进步。

他指出,Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同,是一种完全独立研发的新一代技术,拥有自主知识产权。

Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到,Yan 架构的训练效率是传统 Transformer 架构的 7 倍,这大大缩短了开发周期,并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。

此外,Yan 架构在保持高效能的同时,具有高推理吞吐量的特点,能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视,支持 100% 私有化部署,这对注重数据安全的企业至关重要。

他提到,Yan 架构能够在不同平台上运行,包括大型服务器和普通消费级 CPU,这增加了其在不同规模和类型企业中的应用范围。同时,Yan 在减少大模型幻觉问题方面也取得了进展,通过增强记忆能力,提高了问题回答的准确性。

在刘凡平的介绍之后,岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。

杨华表示,Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子,Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度,优化了模型的学习和生成复杂信息特征的能力,从而在推理效率上取得显著提升,同时大幅降低了推理成本。

杨华还介绍了基于 Yan 架构的不同参数规模的语言模型,包括 13 亿、70 亿、480 亿参数量的模型,并强调了在大规模语料上的训练过程和方法。在性能对比中,Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例,如机器翻译、古诗续写和问答系统,Yan 展示了其实际运行能力,特别是在常规消费级 CPU 设备上的流畅运行能力。

随着发布会的结束,这些技术介绍和展示吸引了与会者的极大关注,引发了大家的广泛讨论。在随后的深入采访中,刘凡平表示,Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点,已经在多个行业中获得了广泛的关注和应用。

刘凡平强调,Yan 模型深受多个合作伙伴的青睐,这些合作伙伴参与了与模型相关的会议,并对其表现出浓厚的兴趣;对于中小型企业而言,Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构,不仅提高了训练和推理的效率,还降低了客户的总体项目成本。

此外,刘凡平也谈到,Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行,支持断网情况下的应用,这对于教育等领域尤为关键。在这些领域中,Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域,Yan 模型可以以低成本的方式提供智能客服解决方案,优化供应商管理和高效处理内部数据等,从而提升用户体验和运营效率。

Yan 架构的潜力与挑战

从技术介绍来看,Yan 架构无疑展示了许多潜在优势,例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。

然而,正如历史上许多技术革新所展示的,一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此,对于 Yan 架构来说,下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验,也是对其在实际应用环境中可行性的考量。

我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的,对于 Yan 架构来说,吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣,将是衡量其市场潜力的关键。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

淘宝启动鸿蒙开发,微信会跟进吗?马云抄底阿里;“哄女友挑战”上线即爆火,24 小时用户达 60 万 | Q 资讯

贾扬清新作被某印度创始人内涵借鉴,懒得纠缠:巧了,正准备开源,GitHub 见

被严重宕机坑惨了!多家公司向这个已经存在10年却“鲜为人知”的架构迁移

Apache 顶级项目 MXNet 退役!大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”?

微信扫码关注该文公众号作者

来源:InfoQ

相关新闻

5亿参数“小模型”如何超越千亿级参数大模型GPT-3.5?大模型架构TTT问世,也能推翻Transformer?GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报Falcon Mamba来了!首个无注意力大模型!再次挑战Transformer!10+AI 系列专题,拆解从 0 到 1 构建大模型架构平台的实现路径|ArchSummit美国顶级学府抄袭中国大模型?斯坦福紧急道歉!如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构大模型应用成本卷到了千元级!云天励飞发布“深目”AI 模盒:搭载自研芯片,单手可托起大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」谷歌AI通过图灵测试,大模型医生来了?GPT-4竟诊断出难倒17个医生的怪病AI 大模型落地金融:如何应对五大挑战?真要这么卷?某国产大模型定价下调90%,百万 tokens 只需 1 元!架构师如何不错过大模型技术革命?一线实践都在这了|ArchSummit深圳 2024 议程上线如何1秒内快速总结100多页文档?QQ 浏览器首次揭秘大模型实现技术细节SSM 能取代 Transformer 搞出更「牛」的大模型吗?快手上线自研文生图大模型“可图”,参数规模达十亿级强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长微软秘密开发首个千亿大模型,竟由OpenAI对手操刀!网友:你不要奥特曼了?没有千亿级也没有百亿级,ToB 大模型如何挖掘不足 1% 的企业数据的价值?获千万级天使轮融资,华为系团队以AI大模型改造用工模式丨早起看早期大模型时代,架构师如何玩转“AI+架构”?| ArchSummit大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。