Bendi新闻
>
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
6月前
引言
Llama进化史(第1节) 模型架构(第2节) 训练数据(第3节) 训练方法(第4节) 效果对比(第5节) 社区生态(第6节) 总结(第7节)
1. Llama进化史
1.1 Llama-1 系列
1.2 Llama-2 系列
1.3 Llama-3
2. 模型架构
为了增强训练稳定性,采用前置的RMSNorm [6]作为层归一化方法。 为了提高模型性能,采用SwiGLU [7]作为激活函数。 为了更好地建模长序列数据,采用RoPE [8]作为位置编码。 为了平衡效率和性能,部分模型采用了分组查询注意力机制(Grouped-Query Attention, GQA)[9]。
2.1 Llama-1 系列
2.2 Llama-2 系列
2.3 Llama-3 系列
3. 训练数据
3.1 Llama-1 系列
英语CommonCrawl:Llama-1预处理了2017年至2020年间的五个CommonCrawl数据集。该过程在行级别去重,使用fastText线性分类器进行语言识别以去除非英语页面,并使用n-gram语言模型过滤低质量内容。此外,Llama-1训练了一个线性模型来分类维基百科中用作参考的页面和随机采样的页面,并丢弃了未被分类为参考的页面。 C4:在探索性实验中,Llama-1观察到使用多样化的预处理CommonCrawl数据集可以提升性能。因此,Llama-1的数据中包括了公开可获得的C4数据集。C4的预处理也包括去重和语言识别步骤:与CCNet的主要区别在于质量过滤,主要依赖于标点符号的存在或网页中的单词和句子数量等启发式规则。 Github:Llama-1使用Google BigQuery上可公开获取的GitHub数据集。Llama-1仅保留在Apache、BSD和MIT许可下分发的项目。此外,Llama-1还使用基于行长度或字母数字字符比例的启发式规则过滤低质量文件,并用正则表达式移除如页眉等样板内容。最后,Llama-1在文件级别对结果数据集进行去重,匹配精确相同的内容。 维基百科:Llama-1添加了2022年6月至8月期间的维基百科数据,涵盖使用拉丁或西里尔文字的20种语言。Llama-1处理数据以移除超链接、评论和其他格式化的样板内容。 Gutenberg和Books3:Llama-1在训练数据集中包括了两个书籍语料库:Gutenberg项目(包含公共领域的书籍)和ThePile的Books3部分,一个公开可获得的用于训练大型语言模型的数据集。Llama-1在书籍级别进行去重,移除超过90%内容重合的书籍。 ArXiv :Llama-1处理ArXiv的Latex文件,以增加科学数据到Llama-1的数据集。Llama-1移除了第一节之前的所有内容以及参考文献部分。Llama-1还移除了.tex文件中的注释,并内联扩展了用户编写的定义和宏,以增强论文间的一致性。 Stack Exchange:Llama-1包括了Stack Exchange的数据转储,这是一个涵盖从计算机科学到化学等多种领域的高质量问题和答案的网站。Llama-1保留了28个最大网站的数据,移除了文本中的HTML标签,并根据得分将答案排序(从最高到最低)。
3.2 Llama-2
我们将继续努力微调模型,以提高在其他语言环境下的适用性,并在未来发布更新版本,以解决这一问题。
3.3 Llama-3 系列
4. 训练方法
4.1 Llama-1系列
4.2 Llama-2系列
4.3 Llama-3系列
5. 效果对比
5.1 Llama-2 vs Llama-1
5.2 Llama-3 vs Llama-2
6. 社区影响
6.1 开放源代码模型的力量
6.2 对全球AI研发的影响
6.3 技术进步和社区创新
6.4 生态系统和多样性
6.5 Llama社区的未来展望
7. 总结
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报小扎All in 开源AGI:正训练Llama 3,年底将有35万块H100闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来58同城孙启明:生活服务垂类大模型怎么搭?自研+开源两手抓,火速微调上线Llama 3|GenAICon2024开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?新晋开源顶流模型 Llama 3.1 被开发者赞爆!小扎拿苹果“开刀”反对闭源厂商:AI 不要“苹果税”!赶超 GPT-4o,最强大模型 Llama 3.1 405B 一夜封神,扎克伯格:开源引领新时代别再说国产大模型技术突破要靠 Llama 3 开源了新测试基准发布,最强开源Llama 3尴尬了最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍哈尔滨啤酒检出呕吐毒素;Meta发布开源大模型Llama 3丨大公司动态最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上Meta震撼发布Llama 3,一夜重回开源大模型铁王座张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报史上最强开源大模型 Llama 3正式发布。。。开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类叫板李彦宏、Llama 3 发布,大模型的开源闭源到底在争什么?扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强