Bendi新闻
>
最全!LLaMA 3/2/1模型结构总览 & 亮点分析

最全!LLaMA 3/2/1模型结构总览 & 亮点分析

6月前

上个月,MetaAI开源了第三代Llama 3系列,是目前为止最强的开源大语言模型!传奇研究员,AI开源倡导者吴恩达表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!


不过以ChatGPT为代表的一众大语言模型已对自然语言处理领域下的传统任务造成不同程度上的冲击。我们邀请到了国家实验室青年研究科学家、顶会审稿人Tingberg导师,为我们带来精彩课程——大模型时代科研角度LLaMA 3能做什么?导师结合自身的研究经历,以llama 3为例介绍科研人如何快速入门大模型领域。

扫码免费参与课程

 👇🏻👇🏻👇🏻

👇🏻免费领👇🏻

100篇大模型论文及复现代码 

原价288元的热门大模型系列课

▲100篇大模型论文及复现代码 



▲原价288元的热门大模型系列课


导师介绍

Tingberg

个人简介:某国家实验室青年研究科学家,博士毕业于某985高校,曾于哥本哈根大学做访问学者,长期担任NLP领域顶级会议ACL,EMNLP,COLING,NAACL,AACL,EACL,IJCNN等审稿人;


研究领域:主要包括情感分析,新闻推荐,关系分类,知识增强,大模型预训练和分析等;熟练python语言及相关神经网络框架Torch,Tensorflow等。

 

学术成果:共有十余篇SCI国际期刊论文,包括一区期刊Expert Systems with Applications (影响因子8.5),Knowledge-Based Systems (影响因子8.6),及二区期刊Neurocomputing (影响因子5.8),CCF-A类会议论文ACL, CCF-B类会议COLING, ICCD等。23年论文被引40余次。所有已发表论文均开源代码。指导博士研究生、硕士研究生多人,包括来自UCLA的博士和UCPH的硕士生。

课程大纲

live

-GPT发展史与LLaMA系列

-LLaMA3网络结构与效果

-LLaMA3训练及计算资源要求

-大模型时代科研角度LLaMA3能做什么



扫码免费参与课程

 👇🏻👇🏻👇🏻

👇🏻免费领👇🏻

100篇大模型论文及复现代码 

原价288元的热门大模型系列课


新一代Llama 3模型,有哪些亮点?


就在一个月前,Meta不负众望发布了两款开源Llama 3 8B与Llama 3 70B模型。并称这是同等体量下,性能最好的开源模型。

 

号称一代更比一代强的Llama 3 8B,在部分性能测试上甚至比Llama 2 70B还要强大。无论是预训练还是指令微调,都展现出更灵活易用的特点。

 


这也受益于Meta在研发Llama 3 过程中,设计的一套更高质量的人类评估标准。1800个测试项、12个主要应用场景,囊括了角色扮演、逻辑推理、开放/封闭式问题等多项标准。

 

基于这一评估标准,相较于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可见一斑。

 


扫码免费参与课程

 👇🏻👇🏻👇🏻

👇🏻免费领👇🏻

100篇大模型论文及复现代码 

原价288元的热门大模型系列课


备受瞩目的Meta Llama3,将精力集中在四大核心要素:模型架构、预训练数据、预训练规模、指令微调。

 

模型架构:

 

与前一代Llama2相比,Llama3进行了关键性能改进。首先,Llama3采用128K token的分词器,以提高编码语言效率;其次,8B和70B规模模型采用GQA技术,最多可以处理8192个Token序列,并且通过掩码技术规范模型的自注意力机制,以防跨越不同文档界限。

 

训练数据:

 

与前一代Llama2相比,Llama3的训练集规模扩大了7倍、代码数据量增加了4倍,在预训练数据投入了更多资源,基于超过15T 的 Token,覆盖了超30种语言。并且,训练过程中,为保障优质数据,还打造了包含应用启发式过滤器、NSFW 内容过滤、语义去重技术和文本质量分类器等一系列高效数据过滤流程。

 

训练规模:

 

训练数据的提升使训练规模也需要跟上节奏。为挑选出最佳的数据处理方案,Llama 3 制定了一套详尽的 Scaling Laws以确保多场景下的能力表现。

 

为训练目前为止最大规格的Llama 3 模型,Meta采用了三种并行技术:数据并行、模型并行和流水线并行。以此达到在16K的GPU上同时训练,最高效可以实现每个GPU超400TFLOPS的计算利用率。

 

总体而言,相较Llama 2 ,Llama 3 的训练效率提升了大约三倍。

 

指令微调:

 

为了提高聊天应用场景的效能,Llama 3 还通过指令微调的办法完成创新性改进。关于Llama 3的训练策略融合了监督式微调、拒绝抽样、近端策略优化和直接策略优化等多种技术,以此提升 Llama 3 在逻辑推理和编程任务上的表现。


扫码免费参与课程

 👇🏻👇🏻👇🏻

👇🏻免费领👇🏻

100篇大模型论文及复现代码 

原价288元的热门大模型系列课


针对“疯狂”的Llama 3,科技大佬纷纷现身,发表意见。

 

在Yann LeCun 为 Llama 3 的发布摇旗呐喊的帖子下,马斯克现身该评论区,留下一句「Not bad 」,表达认可和期待。


英伟达高级科学家Jim Fan称,“ Llama-3-400B+ 将标志着社区获得 GPT-4 级模型的开放权重访问权的分水岭时刻。它将改变许多研究工作和草根初创公司的计算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了数据,Llama-3-400B仍在训练中,希望在接下来的几个月里会变得更好。有如此多的研究潜力可以通过如此强大的能力释放,期待整个生态系统的建设者能量激增!”

 


传奇研究员,AI开源倡导者吴恩达表示:“Llama 3的发布是自己这辈子收到过的最好的礼物,谢谢你Meta!”

 


小扎则表示,“我们的目标不仅仅是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”

 


根据Meta AI的工程师Aston Zhang透露,未来Llama 3还会解锁新的能力,比如多模态、以及性能更强的400B版本。

 

 

Meta自己也放了隐藏小彩蛋:“您很快就可以在我们的 Ray-Ban Meta 智能眼镜上测试多模式 Meta AI。一如既往,我们期待看到您使用 Meta Llama 3 构建的所有令人惊叹的产品和体验。”

 

“通过 Llama 3,我们着手构建与当今最好的专有模型相媲美的最佳开放模型,”Meta强调,“我们致力于开放 AI 生态系统的持续增长和发展,以负责任地发布我们的模型。我们长期以来一直相信,开放可以带来更好、更安全的产品、更快的创新以及更健康的整体市场。这对 Meta 有利,对社会也有利。”


扫码免费参与课程

 👇🏻👇🏻👇🏻

👇🏻免费领👇🏻

100篇大模型论文及复现代码 

原价288元的热门大模型系列课


此次Meta新一代Llama 3模型的发布,让大语言模型的多模态能力、生态化,有了更进一步的革新。


而大模型作为热门方向之一,如果能产出高区论文,对自己的学业或者就业,都有很大的加分!


对于大佬来说,一篇顶会的完成可能只需要2个月,但对普通科研er来说,通常需要4-6个月去完成,如果遇到卡点迟迟不能解决,那就要半年以上!


还在为创新点而头秃,为做实验和跑代码而通宵达旦,为写论文而绞尽脑汁的科研人们,建议你们来试试沃恩智慧的论文辅导,顶会论文作者、顶会审稿人一对一指导!服务至中稿为止!

01

文末福利


文末给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!



扫码免费领

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍最强开源大模型深夜炸场! Llama 3 王者归来,直逼 GPT-4, 马斯克点赞 | 附体验链接卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了扎克伯格的Llama 3号称全球最强开源模型!却写不好这个……最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上太炸裂!9万澳洲人齐聚悉尼疯跑?!奇装异服刷屏全网!City 2 Surf 2024最精彩的看点,澳洲人太会玩了...MR方向不好找?最全孟德尔知识库都在这!简简单单2图1表冲JCR一区!巨详细!有救了!全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选年终最后一次盘点!最新最全顶会论文合集(含AAAI24、CVPR、ECCV、NIPS、ACL、ICML等)不调休不请假,2-3天短途旅行!最适合端午去的十个地方,各具特色,人少景美,带娃走起!扎克伯格最新采访:Meta最强开源模型Llama 3凭什么值百亿美金2023年外贸成绩单公布,亮点分析抓住爆发红利!目前最全的!国内AI大模型名单!百家争鸣!开源Llama 3.1一夜成最强大模型!超越闭源GPT-4o,OpenAI坐不住了周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报张核子回应张姗姗身份;雷军直播回应造车亏损;Meta发布最强开源大模型Llama 3;阿里拍卖回应前员工指控高管职场霸凌|邦早报史上最强开源大模型 Llama 3正式发布。。。Gemini Ultra训练烧掉近2亿美元!斯坦福迄今最全AI报告发布,中国AI专利数遥遥领先最强智能体Agent Q发布!Llama 3零样本成功率提升340%最强智能体Agent Q发布!Llama 3成功率飙升3倍,OpenAI神秘「草莓」遭截胡?全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了伦敦飞重庆360元?春节可以打飞的回国吃香喝辣了!2月国际航班计划全网最全汇总!阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强温哥华【最全郁金香攻略】来了!!快点来打卡
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。