Bendi新闻
>
一大堆Chinese Llama3正在袭来

一大堆Chinese Llama3正在袭来

1月前


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | 刘聪NLP

写在前面

大家好,我是刘聪NLP。

Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多Chinese-Llama3 repo,开源社区也是相当的卷。

再看到Llama3相关报告的时候,就预料到会有很多Chinese-Llama3,因为Llama3对中文十分不友好,15T Tokens的训练数据,仅有5%(750B Tokens)是其他语言,那么中文就更少了。

当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)

很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意思,但输出内容就会是英文,在提示词中强调用中文的情况下,会使用中文回答,但不稳定,有时会出现中英文结合的情况。

中文问题

强调中文回答

强调中文回答-但输出英文

强调中文回答-但输出英文

可想而知,开源社区会对Llama3进行中文增强(毕竟llama3基座很强),当然还是那几步:扩充中文词表、中文数据continue-pretrain、中文sft。

当然就像Llama2出来的时候一样,会带来很多机遇,借助Llama3的名头,还是可以肝出不少内容的。

下面先简单对Llama3进行介绍,再给大家分享一些已经开源的Chinese-Llama3项目。

Llama3

Llama3模型目前共开源了8B和70B两个参数规模的模型,400B参数规模的模型还在训练中。MetaAI也表示接下来的几个月里,将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口以及更强的综合能力的模型。

Blog: https://ai.meta.com/blog/meta-llama-3
HF: https://huggingface.co/meta-llama/Meta-Llama-3-70B

  • 结构与Llama2基本一致,词表大小扩充到128K,8B和70B大小的模型中都采用了分组查询注意力(GQA),最大长度8K。

  • 15T Tokens进行模型预训练,整体是Llama2的7倍,代码数据是Llama2的4倍,其中5%的数据由其他30种语言组成。

  • 训练优化(数据并行、模型并行和流水线并行)实现同时在16K个GPU上训练,每个GPU的计算利用率超过400 TFLOPS。最终在24K个GPU上训练,相比于Llama2训练效率提高了约三倍。

llmsys对战

暂时投票还有点少,但匿名PK榜单效果已经很逆天了,暂时成为开源之最。

Chinese-Llama3

下面放几个已经开源权重的Chinese-Llama3,这才两天,后面会越来越多,现在还有一些repo在占坑。

CrazyBoyM/llama3-Chinese-chat

Github: https://github.com/CrazyBoyM/llama3-Chinese-chat

大佬们真实太肝了,目前涉及的版本是base和instruct模型利用中文数据直接SFT。

  • 2024-04-19 下午1点:世界上首个llama3 中文版训练完成,晚上没睡觉哈哈,使用170k+高质量多轮中文对话数据连夜训练得到。

  • 2024-04-20 早上7点:v2版训练完成。

  • 2023-04-20 晚上23点:instruct 中文版训练完成。

数据集主要涉及firefly-train-1.1M、shareAI/CodeChat、shareAI/ShareGPT-Chinese-English-90k、ruozhiba、COIG-CQIA和自己造的数据。

UnicomAI/Unichat-llama3-Chinese

Github: https://github.com/UnicomAI/Unichat-llama3-Chinese

中国联通AI创新中心开源,目前版本应该也是直接SFT版本,暂不清楚是基于base模型还是instruct模型。说后续会更新64K版本、增量预训练版本。

数据量未知,但表明是高质量指令数据(覆盖多个领域和行业),微调指令数据经过严格的人工筛查(如果真人工,是个大工程)。

BoyangZ/llama3-chinese

HF: https://huggingface.co/BoyangZ/llama3-chinese

仅通过silk-road/Wizard-LM-Chinese-instruct-evol数据训练2个epoch进行中文测试。其中,maxlenght=2k、bs=8、steps=500。

写在最后

开源社区真的太卷了,上面两个项目都号称首个Chinese-Llama3,但暂时开源的还是Chinese-Llama3-8B为主,也可以理解,毕竟8B训练的更快。

期待后面更多的Chinese-Llama3出来,相信不久ymcui、lily、firefly、 IDEA等都会开中文Llama3吧。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

来源:机器学习算法与自然语言处理

相关新闻

新冠病毒正在袭来!加州首当其冲,湾区目前形势最为严峻上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉...上海知名医生求救日记刷屏: 新型危机正在袭来,很多人还浑然不觉……上海知名医生求救日记刷屏: 产科危机正在袭来…Happy Chinese New Year 波士顿新年攻略来袭毕业季旅行去哪儿?假期最震撼的 买二送二优惠活动来袭!优胜美地,羚羊峡谷,黄石公园,落基山脉,瀑布,波士顿等行程!!福利快来领取直击亮点!2024宝宝树商业合作伙伴大会暨全球母婴大会分会场强势来袭,构筑生意共赢新版图雷暴预警?!波士顿破纪录的高温还没结束,雷暴就来袭,这个夏天天气注定不平凡!加拿大的夏日超值优惠来袭,户外上网自由!$20/月29G…幸亏没出大事!热浪来袭之际 麻州911打不通 瘫痪近2小时今年飓风提早来袭?首个热带风暴警告在这个地区发布高温来袭 霍楚宣布纽约州立公园明后两天免费开放4折起拿下SK-II神仙水、HR黑白绷带、海蓝之谜面霜……NOVELA年中大促火爆来袭!全网首发!NYU、哈佛、MIT…15所美国大学夏季书单来袭,第一本刷爆外网(附PDF)行业高薪岗位,应往届可投,摩尔精英2024空中宣讲会高能来袭!酷热天气来袭!芝加哥迎来持续高温 外出注意防暑热浪来袭,纽约开放避暑中心热浪来袭!布碌仑华社开放多个避暑中心不是开玩笑的!国家气象局发布危险天气警报!纽约今夏第一波热浪来袭!体感温度料超100°F!又一轮暴雨来袭,休斯顿敦促居民做好准备专家警告:卑诗9级强震最可能发生在这里!比预想中更猛烈!随时可能袭来…讲座重磅来袭:99%留学生忽视的5个宝藏上岸赛道竟是……最高45度!危险热浪来袭 多伦多发布高温警报!将持续一周!冲100℉!纽约今夏首波热浪来袭,每年有350人因高温死亡
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。