Bendi新闻
>
一大堆Chinese Llama3正在袭来

一大堆Chinese Llama3正在袭来

6月前


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | 刘聪NLP

写在前面

大家好,我是刘聪NLP。

Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多Chinese-Llama3 repo,开源社区也是相当的卷。

再看到Llama3相关报告的时候,就预料到会有很多Chinese-Llama3,因为Llama3对中文十分不友好,15T Tokens的训练数据,仅有5%(750B Tokens)是其他语言,那么中文就更少了。

当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)

很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意思,但输出内容就会是英文,在提示词中强调用中文的情况下,会使用中文回答,但不稳定,有时会出现中英文结合的情况。

中文问题

强调中文回答

强调中文回答-但输出英文

强调中文回答-但输出英文

可想而知,开源社区会对Llama3进行中文增强(毕竟llama3基座很强),当然还是那几步:扩充中文词表、中文数据continue-pretrain、中文sft。

当然就像Llama2出来的时候一样,会带来很多机遇,借助Llama3的名头,还是可以肝出不少内容的。

下面先简单对Llama3进行介绍,再给大家分享一些已经开源的Chinese-Llama3项目。

Llama3

Llama3模型目前共开源了8B和70B两个参数规模的模型,400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里,将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

  • 结构与Llama2基本一致,词表大小扩充到128K,8B和70B大小的模型中都采用了分组查询注意力(GQA),最大长度8K。

  • 15T Tokens进行模型预训练,整体是Llama2的7倍,代码数据是Llama2的4倍,其中5%的数据由其他30种语言组成。

  • 训练优化(数据并行、模型并行和流水线并行)实现同时在16K个GPU上训练,每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练,相比于Llama2训练效率提高了约三倍。

llmsys对战

暂时投票还有点少,但匿名PK榜单效果已经很逆天了,暂时成为开源之最。

Chinese-Llama3

下面放几个已经开源权重的Chinese-Llama3,这才两天,后面会越来越多,现在还有一些repo在占坑。

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬们真实太肝了,目前涉及的版本是base和instruct模型利用中文数据直接SFT。

  • 2024-04-19 下午1点:世界上首个llama3 中文版训练完成,晚上没睡觉哈哈,使用170k+高质量多轮中文对话数据连夜训练得到。

  • 2024-04-20 早上7点:v2版训练完成。

  • 2023-04-20 晚上23点:instruct 中文版训练完成。

数据集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的数据。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中国联通AI创新中心开源,目前版本应该也是直接SFT版本,暂不清楚是基于base模型还是instruct模型。说后续会更新64K版本、增量预训练版本。

数据量未知,但表明是高质量指令数据(覆盖多个领域和行业),微调指令数据经过严格的人工筛查(如果真人工,是个大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

仅通过silk-road/Wizard-LM-Chinese-instruct-evol数据训练2个epoch进行中文测试。其中,maxlenght=2k、bs=8、steps=500。

写在最后

开源社区真的太卷了,上面两个项目都号称首个Chinese-Llama3,但暂时开源的还是Chinese-Llama3-8B为主,也可以理解,毕竟8B训练的更快。

期待后面更多的Chinese-Llama3出来,相信不久ymcui、lily、firefly、 IDEA等都会开中文Llama3吧。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

来源:机器学习算法与自然语言处理

相关新闻

新冠病毒正在袭来!加州首当其冲,湾区目前形势最为严峻上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉...上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉……上海知名医生求救日记刷屏: 产科危机正在袭来…Happy Chinese New Year 波士顿新年攻略来袭大温天气警告生效:今晚暴雨强风来袭!女子网上乱喷被捕 30万安保费温村店主称都没用安省出现龙卷风,司机被困洪水中!多伦多60mm降水+狂风来袭!七夕福利来啦| 下周六,墨尔本Meat Market七夕游园会精彩来袭~带上全家来薅七夕好礼吧!卷土重来!致命病毒来袭!致死率10%,WHO拉响最高级别警报,疫情蔓延16国!澳洲敦促加强入境筛查甜蜜,来袭了半导体设备订单潮袭来?盛美上海中报营收大涨:全面布局3D IC、化合物半导体设备预警!9.0级特大地震恐来袭!最坏情况32w人将遇难!日本将进入灾难模式、爆发百年一遇大地震!即将"失业"拜登已开始"找工作";烧钱大战来袭,川普VS哈里斯广告PK,半个月狂烧2.5亿。[注意]特鲁多尹大卫各方发来贺电!温哥华国际音乐盛事强势来袭伦敦必看皇家美院展...完美指南来袭!救命!“毒蚊子”来袭!加州此前已有一人感染病毒死亡!夏日防护请拉满!宇宙人(1563期)比亚迪原地掉头相关专利公布;进步MS-28货运飞船已就位;鼎桥重回国资怀抱;大地磁暴再度来袭麦当劳开心乐园餐推出成人版! “收藏家套餐”来袭, 限量款杯子也太酷啦麦当劳“收藏家套餐”来袭, 限量款杯子值得期待!麦当劳花式怀旧!“收藏家套餐”限量款杯子来袭…BC省近400处山火! 高温+雾霾+山火组合来袭!等于人均每天抽烟2支【英伦艾迪】夏日限定!伦敦必看RA展...完美指南来袭!【早鸟票提前售罄!】 2024下班别走,清凉来袭~Costco新规来袭:入店需亲自扫码会员卡!美国多店已实施
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。