Llama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒
作者 | Zicy
4月19号,Meta发布了其最新的大型语言模型Llama 3的早期版本,反响热烈,短短4天,就有了1000多个变种,而且这个数字还在持续增加...
井喷式变种
19号凌晨,Meta发布的Llama 3可谓是向开源社区扔了一颗重磅炸弹,刚过4天,截至到目前4月23号上午10点,Hugging Face已经拥有了1013种Llama的变体,这个数字在21号晚上还是700多。有网友说Llama 3每分钟都在增长。
可是前几天不是刚过周末吗?
Hugging Face的联合创始人兼首席执行官Clem Delangue说到,到下周末可能将有10,000种变体可用!
而且Hugging Face的技术主管Philipp Schmid还贴心地发布了一份Llama 3-70B的微调指南,这个指南可以在他的个人网站上找到:
https://www.philschmid.de/fsdp-qlora-llama3
这份指南包括:设置开发环境、创建和准备数据集、使用PyTorch FSDP、Q-Lora和SDPA微调LLM以及测试模型和运行推理。
Llama 3中文版
在Llama 3的众多型号中,有一个清华系团队开发的Llama3-8B-Chinese-Chat还挺火,目前Llama 3 Models的Trending中排名第三。它是基于Llama3-8B通过ORPO微调的中文聊天模型,该模型显著减少了Llama3-8B“中文问题英文回答”和混合中英文回答的问题。
与Llama-3-8B-Insturct相比,模型在回答中文提示时一直都能做出更好的反应,而且在逻辑、编码、数学和写作方面表现出色。此外,相较于原模型,新模型在回答中大量减少了表情符号的使用,使得回应更加正式。
从网友测评的弱智吧case看,该模型的中文能力是相当不错的
模型的下载链接:
https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat
AI芯片的闪电级推理速度
除了开源社区在模型上的努力之外,初创芯片公司Groq似乎通过一系列实验证实,其芯片能够以每秒超过800个token的推理速度为LLaMA 3提供服务。
众所周知,矩阵乘法运算是深度学习的计算核心,Groq的张量流处理器对矩阵乘法做了芯片级优化,避开了传统CPU和GPU的缓存和复杂的控制逻辑,转而采用针对AI工作负载量身定制的简化、确定性执行模型。
虽然目前该芯片还在测试阶段,但其断层领先式的卓越性能似乎是坐实了,一直在对LLaMA 3性能进行基准测试的工程师Dan Jakaitis说到:每秒800个token的推理速度足以每秒生成约500个单词的文本,这几乎比传统GPU快了一个数量级,如果这钟性能的芯片进入市场,无疑会撼动人工智能推理的竞争格局,挑战Nvidia在芯片领域的霸主地位。
参考资料
[1] https://huggingface.co/models?sort=trending&search=llama3[2] https://xiaohu.ai/p/6602
[3] https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/
微信扫码关注该文公众号作者