Bendi新闻
>
央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据

央企第一家:中国电信开源星辰语义大模型,共享超1T 高质基础数据

机器之心原创

作者:吴昕


2024 年伊始,中国电信开源星辰语义大模型- 7B,成为第一家开源大模型的央企。同时开源的还有超 1T 的高质量清洗基础数据。 


随着新一轮科技革命和产业变革加速演进,拥抱 AI 成为中国电信当下发展的核心战略之一。2019 年,中国电信在原数据中心基础上成立大数据和 AI 中心。2023 年11 月,中国电信注资 30 亿元成「中电信人工智能科技有限公司」(以下简称中电信 AI 、 AI 团队),牵头打造中国电信 AI 核心技术。同月,中国电信发布千亿级星辰语义大模型。 


开源项目链接地址 
  • https://gitee.com/Tele-AI/tele-chat 
  • https://github.com/Tele-AI/Telechat 
              
一、星辰语义大模型的开源方案 

在千亿参数大模型发布之前,星辰语义大模型已经具备了多版本稳定可用的大模型基座,覆盖 3B 、 7B 、12B 和 130B 等参数量级。大模型采用纯自研的方式,团队选用解码器架构( decoder-only )并在模型维度做了一些创新和改进,经过数十版模型训练与优化,模型的稳定性和推理速度都得到了明显提升。 

根据开源服务的对象不同,星辰语义大模型的开源方案也分两种——对内方案和对外方案。对外方案中,7B 模型在 Gitee 和 Github 同步开源,支持商用。对内方案中,开源对象包括 3B 、 7B 和 12B 模型。代码在研发云进行托管。模型使用二方包方式进行托管,权限采用项目申请关联方式。 

开源的模型数量和时间有所不同,但开源内容并无区别。比如,提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持 LoRA 等只更新部分参数的高效微调方法、支持 deepspeed 微调、支持 int8 、 int4 量化和昇腾卡训练推理。长文本处理是星辰语义大模型的一个亮点。开源模型支持外推长度达96K,有助于模型在训练与推理阶段捕获更多上下文信息,特别是在引入外部知识做搜索增强的应用场景。 

同时开放的还有超 1T 高质量清洗的基础数据,是由星辰大模型预训练语料中抽取出的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等媒介,数据集大约公开了 2.7 亿条数据,由纯中文文本构成。据电信 AI 透露,这些数据在 7B 、 12B 还有未来开源的千亿级大模型都会用到。 

LoRA和全参数微调的训练能力的支持情况。 

二、星辰语义大模型的能力展示 

这次最先开源的星辰语义大模型-7B 也是中国电信星辰大模型矩阵的重要组成部分。除了语义大模型,星辰大模型还包括星辰视觉大模型,星辰多模态大模型以及星辰语音大模型。 

星辰多模态大模型主要聚焦提升图文生成、图文理解能力,训练了超过 12 亿各种风格数据,支持近 20 种绘画风格,中文意象理解生成能力提升 30%,语义细粒度生成效果提升 25%。 

星辰语音大模型基于数十万小时语音数据进行训练,具备精准的多语种/方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音能力,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。 

星辰视觉大模型基于亿级规模数据,通过多任务协同训练,获得工信部重点实验室评选的 2023 年大模型研发应用和工具平台优秀案例,通过星河平台在 20 省部署核心算法,算法日均调用量达 3.3 亿次。 

星辰大模型矩阵

基础能力是否能达到客户预期是大模型落地的主要挑战,星辰语义大模型可以通过 zero/few-shot 低成本方式适配各种任务。星辰语义大模型还拥有内容创作、语言理解、逻辑推理、知识问答以及包括代码生成、代码翻译和测试用例生成等代码辅助能力。 

星辰语义大模型通用能力展示


星辰语义大模型通用能力展示

不过,大模型就像一个强大但没有说明书的机器,谁能驾驭好 prompt,谁就能激活大模型的巨大潜力。因此,星辰语义大模型支持超过 100 个 prompt 模版任务(还在持续增加),涉及文本生成、问答对话、编程、翻译等多个场景,企业既可以直接调用,也可以借鉴思路改写。 

prompt 模板展示。为帮助用户更好地激发模型潜力,星辰语义大模型支持超过100个 prompt 模版任务,而且数量还在持续增加中。 


大模型在长文写作、逻辑推理、百科问答以及代码辅助等场景下均有优异表现。以长文写作为例,开源大模型不仅支持周报、申请材料、行业分析等近 20 类长文写作,还支持PPT大纲、总结、计划、调研等文本生成任务。长文写作也是中国电信内部比较有代表性的应用场景。星辰语义大模型比国内众多大模型表现更好。 

除了长文写作,星辰语义大模型正依托 5G 消息为政务客户提供政务短信智能化多轮问答服务。融合了大模型的新一代智能客服系统,能够提供基于文档知识的应答能力,使得问题覆盖率达到 95% 以上,相比传统的智能客服能够更准确地回答用户问题,提供接近人工客服的服务体验。另外,大模型还能进行准确的客户服务总结,针对多通会话做整体的业务洞察。 

值得一提的是,百亿级语义大模型商业化过程中面临的幻觉、外推窗口和多轮逻辑推理方面的挑战,在去年 11 月发布的千亿级星辰语义大模型身上得到了重点解决。其中,千亿级星辰语义大模型的长文本生成和长文理解性能分别提升了 30% 和 20% 。知识问答方面的性能提升了 18%。逻辑推理、数学和代码能力等方面也实现了10- 15% 不等的性能提升。 

除了通用能力,星辰语义大模型还有一套插件,增强自身落地场景的适应能力。 

要真正改变实践中的一些工作流程和思路,提高效率,单纯依靠文字交互并不够,行业场景应用需要与多模态模型联动。星辰语义大模型支持对 CV、语音能力的调用,从而实现文生图和个性化语音服务。 

鉴于企业用户都有自己的无形资产,包括作为知识工程积累的数据库、知识库以及实际业务中研发的各类工具。透过调用数据库、知识库,星辰语义大模型能增强自己的行业知识,让服务更专业、更精准。借助思维链能力,星辰语义大模型可以调用甚至排列「串联」各种业务工具接口,为客户提供更专业、更自动化的服务。 

星辰语义大模型还有一套插件,增强自身落地场景的适应能力

除此之外,一些常见的插件调用也有支持。比如,借助思维链能力,星辰语义大模型支持用数学工具插件完成通常由多个推理步骤完成的复杂任务。为了让回答更具权威性和可信度,语义大模型可以通达对外知识的窗口——搜索引擎,检索外部信息,旁征博引。 

支持搜索引擎插件问答及引用来源标识

三、三大关键因素,让语义大模型更接地气 

作为运营商,中国电信入局大模型的优势不仅在于目标客户群体的储备体量惊人,更在于能够为他们提供广泛服务。目前,星辰语义大模型在中国电信内部以及对外企事业单位客户的业务上有较多应用场景,并取得了实质性的效果。 

中国电信内部比较有代表性的两个大模型应用场景分别是长文写作以及网络故障分析。在对外部的项目中,星辰语义大模型提供的应用场景包括企业市场经营分析、政务公开咨询、医保民生诉求接待等。在这些场景下,星辰语义大模型强大的理解能力和意图理解能力,能够支撑更准确的业务决策。 

电信 AI 告诉我们,在模型维度,星辰语义大模型主要有三个方面的创新和改进,包括模型稳定性增强、创新位置编码以及创新激活函数。 

据研发人员介绍,他们改进了 RoPE 位置编码方式,预训练阶段上下文训练长度达到 16K ,结合 NTK-aware 外推和 attention scaling 外推方式,算法大幅提升了模型外推能力。还有初始不同数据权重。通过多个小参数模型在不同权重组合数据集上学习,预测出最佳数据配比超参阶段性数据调控:模型分阶段学习,每个阶段根据不同类型数据 loss 反馈,自动调控下阶段数据配比超参优点:模型可以更好学习不同难度数据集上的知识。另外,基于关键信息的多轮 mask loss 学习机制大幅提升模型问答效果基于 DPO/RRHF 模型偏好对齐调优策略。 

在面向产业应用过程中,为了增强模型的商用性,千亿级星辰语义大模型在业界首次提出缓解多轮幻觉的解决方案,通过关键信息注意力增强技术、多轮知识记忆和强化技术等手段,幻觉率下降了 40%。 

在价值对齐上,星辰语义大模型也表现突出。《生成式人工智能服务管理办法(征求意见稿)》明确要求,利用生成式 AI 生成的内容应当体现社会主义核心价值观。为此,在对齐偏好方向上,我们一方面收集和构建「全面且具有代表性」的排序数据的任务上,对指令微调阶段收集的大量指令采用向量化+聚类的方式,将指令分为不同的簇类,并从各个簇类中按照一定比例抽取具有代表性的指令集,再由标注人员构建相似的指令。研究人员解释说,这种方式不仅可以较为全面地覆盖人类指令,还能保证与微调阶段数据具有相同的数据分布,更有利于模型在对齐阶段的训练。 

对于同一指令下的不同候选答案,AI 团队尝试分多次采集不同参数量,不同训练阶段的大模型的推理结果,再由标注人员进行标注,最终得到完整的基于人类偏好的排序数据。 

在训练阶段,团队尝试了 PPO,RRHF,DPO 等多种基于人类偏好排序数据的训练策略,最终使用 DPO 在指令微调后的模型上进行训练,完成人类偏好对齐,大幅提升了模型生成答案的安全性和规范性。 

除了算法层面的创新,数据和算力资源优势也成为星辰语义大模型优秀性能的重要支撑。 

就国内数据市场而言,政府数据资源占全国数据资源比重超过 3/4,开放规模不足美国的 10%,个人和企业可资利用的规模更是不及美国的 7% 。因此,具有私域属性的行业数据重要性就更为凸显。拥有庞大政企客户资源池的中国电信拥有这方面的先天优势。 

为训练语义大模型,电信 AI 共收集了 25T tokens 数据,选取了 1.5T tokens 到真实的训练,包含百科、书籍、司法、医药等多维度高质量数据。除了合作与采购的获取方式,超大数据集也离不开电信集团的业务优势。星辰语义大模型能更好地理解和满足用户需求,发挥实际应用价值。比如,基于星辰语义大模型的星辰教育大模型,是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15 秒就能完成一篇中英文作文的打分、点评和改进建议。目前已在河南 1.2 万师生教学中应用并取得良好的效果。 

不过,并非只要是金矿就可以练出高纯度金子,想要获得高质量数据集并不容易。为此,AI 团队也使用了不少「提纯」手段。他们通过 Knesey-Ney 技术进行困惑度计算,过滤低质量数据。使用 Minihash+Jaccard 技术对语料进行严格全局排重,并通过定制规则过滤广告、色情等无意义数据。经过严格清洗获得了 25T tokens 数据后,再结合小参数验证方法进行数据采样调整与配比优化,最后迁移大模型进行模型训练,有效提升了大模型基础语言理解能力。 

据电信 AI 透露,他们还有一支几百人专业标注团队,人工标注出超千万级高质量问答数据集,涵盖了例如司法、代码、数学题、医药问答等各个任务、多个领域的数据集作为大模型的微调数据。 

再来看看算力。过去 AI 应用里,很多训练的任务都是单卡或单机就能完成,在大模型时代,需要千卡、万卡来完成一个任务。这就需要构建智算集群,支持万卡级别的高速互联,并且支持各种异构算力,包括 CPU、GPU 等算力的高速互联。 

谈算力,不能简单唯算力论。训练大模型类似火箭发射,都属于大规模系统构成,在算力效率、存储和网络等方面存在许多工程挑战。比如,高性能 GPU 卡多了,大量卡并行训练过程中很容易出现各种状况导致重启,拉低训练效率。如何在现有工程条件下保证大量的卡长时间稳定运行就极富挑战性。 

电信 AI 不仅筹集了 A100、A800 和 910B 三个千卡集群,用于通用基础大模型训练,同时也是国内最早完成910B大模型适配的企业,已完成国内外主流显卡在大模型训练场景下的算子加速。 

星辰语义大模型实际的预训练和微调是使用的微软 Megatron-Deepspeed 框架,综合了DeepSpeed框架中的ZeRO sharding、pipeline并行等技术,与  Megatron-LM 中的 Tensor 并行等技术。综合使用流水线并行、张量并行、数据并行的 3D 并行训练策略,配合混合精度训练、算子融合、后向重计算、零冗余优化器等训练加速和显存优化技巧,在千卡 A100 集群上达到 170+TFLOPS,为理论巅峰算力的 54%。 

大模型的炼丹步骤虽然都是公开一致的,但其中涉及很多算法及工程技巧都离不开优秀的研发团队。截至目前,电信 AI 员工人数约 800 人,研发人员占比达到 75% ,平均年龄 31 岁,均为来自一线科技公司的资深工程师和来自国内外一流高校的应届生。 

四、开源与播种 

面对市场竞争,开源软件的免费使用不仅是有力的获客手段,低成本试错也有助于加速技术创新和产业落地。语义大模型涉及许多技术问题,单靠一家企业很难解决,可以通过开放技术,依靠社区力量共同解决,共享 IP,互惠互利。 

未来,中国电信也将重点围绕开源来做建设,通过持续开源基础大模型,尽可能广泛地赋能更多的用户场景,扩展基础模型的能力边界。4 月,中国电信还将开源千亿级星辰语义大模型。面向下一阶段的竞争,中国电信在自研百亿和千亿基础大模型之外,还联合了北京智源人工智能研究院研发万亿级大模型,预计今年年中完成训练。据了解,电信万亿参数大模型以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。 

作为可能是迄今为止最为复杂的系统性软硬件工程,大模型落地也面临不少挑战。数据采集成本很高,尤其是高质量数学、代码等数据更难获取。在 GPU 短缺的大背景下,如何有效地将算力用好是每家企业都要面临的挑战。还有高昂的维护成本,无论是硬件和软件环境都需要专业领域内的人士的支撑。 

不少人说,2024 年会是开源大模型爆发之年。也有数据显示,开源 AI 模型正走在超越专有模型的路上。开源种子已在年初播下,接下来便是平整土地,静候百花齐放。 


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

来源:机器之心

相关新闻

中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!ACM SIGSPATIAL中国分会:空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书(117页)贾佳亚团队新作:10k数据让大模型数学能力超GPT-40门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练清风无恙:2024中国高尿酸及痛风行业大数据及产业竞争分析白皮书(122页)AI早知道|知网推出AI写作选题;智谱AI发布大模型GLM-4;华为开源GenImage数据集最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍开源大模型火了!(附99个大模型微调模型/数据/工具)!史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集统一化数据库:为大语言模型垂域应用奠定基础巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024数百万苹果、AMD和高通GPU被发现漏洞:或暴露AI大模型数据!首个4D视频生成扩散模型!数分钟实现4D内容生成,超81K优质数据集已开源今日arXiv最热大模型论文:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎2024上半年SCI论文撤稿大数据:中国作者撤稿占到全球的54%!主要涉及这四大原因。。。大数据曝光:中国留学生争先涌入美国的真相中能传媒研究院:中国能源大数据报告(2024)
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。