Llama 3 上线4天，井喷1000多个变种！中文版也有了！Groq上推理速度800token每秒

国际科技财经移民娱乐民生时事体育

Bendi新闻

科技

信息技术

9月前

夕小瑶科技说原创
作者 | Zicy

4月19号，Meta发布了其最新的大型语言模型Llama 3的早期版本，反响热烈，短短4天，就有了1000多个变种，而且这个数字还在持续增加...

井喷式变种

19号凌晨，Meta发布的Llama 3可谓是向开源社区扔了一颗重磅炸弹，刚过4天，截至到目前4月23号上午10点，Hugging Face已经拥有了1013种Llama的变体，这个数字在21号晚上还是700多。有网友说Llama 3每分钟都在增长。

可是前几天不是刚过周末吗？

Hugging Face的联合创始人兼首席执行官Clem Delangue说到，到下周末可能将有10,000种变体可用！

而且Hugging Face的技术主管Philipp Schmid还贴心地发布了一份Llama 3-70B的微调指南，这个指南可以在他的个人网站上找到：

https://www.philschmid.de/fsdp-qlora-llama3

这份指南包括：设置开发环境、创建和准备数据集、使用PyTorch FSDP、Q-Lora和SDPA微调LLM以及测试模型和运行推理。

Llama 3中文版

在Llama 3的众多型号中，有一个清华系团队开发的Llama3-8B-Chinese-Chat还挺火，目前Llama 3 Models的Trending中排名第三。它是基于Llama3-8B通过ORPO微调的中文聊天模型，该模型显著减少了Llama3-8B“中文问题英文回答”和混合中英文回答的问题。

与Llama-3-8B-Insturct相比，模型在回答中文提示时一直都能做出更好的反应，而且在逻辑、编码、数学和写作方面表现出色。此外，相较于原模型，新模型在回答中大量减少了表情符号的使用，使得回应更加正式。

从网友测评的弱智吧case看，该模型的中文能力是相当不错的

模型的下载链接：

https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat

AI芯片的闪电级推理速度

除了开源社区在模型上的努力之外，初创芯片公司Groq似乎通过一系列实验证实，其芯片能够以每秒超过800个token的推理速度为LLaMA 3提供服务。

众所周知，矩阵乘法运算是深度学习的计算核心，Groq的张量流处理器对矩阵乘法做了芯片级优化，避开了传统CPU和GPU的缓存和复杂的控制逻辑，转而采用针对AI工作负载量身定制的简化、确定性执行模型。

虽然目前该芯片还在测试阶段，但其断层领先式的卓越性能似乎是坐实了，一直在对LLaMA 3性能进行基准测试的工程师Dan Jakaitis说到：每秒800个token的推理速度足以每秒生成约500个单词的文本，这几乎比传统GPU快了一个数量级，如果这钟性能的芯片进入市场，无疑会撼动人工智能推理的竞争格局，挑战Nvidia在芯片领域的霸主地位。

参考资料

[1] https://huggingface.co/models?sort=trending&search=llama3
[2] https://xiaohu.ai/p/6602
[3] https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/

微信扫码关注该文公众号作者

来源：夕小瑶科技说

Llama 3 上线4天，井喷1000多个变种！中文版也有了！Groq上推理速度800token每秒

井喷式变种

Llama 3中文版

AI芯片的闪电级推理速度

参考资料

相关新闻