---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. 英伟达 Nemotron-4 340B 火了!合成数据能否将大模型带入下一个阶段?
英伟达的新工作 Nemotron-4 340B 价值如何?合成数据有哪些特点?在大模型训练中如何应用?如何利用 LLMs 生成高质量的合成数据?合成数据在实际应用中有哪些难题?合成数据训好大模型这事有主流的路线了吗?业内怎么看?...
2. 大模型赚钱「攻略」盘出来了!ToC 热火朝天,ToB 暗藏玄机
CEO 们如何看待大模型市场近况?大模型 ToC 市场的机会在哪?ToB 市场的挑战有何不同?Aiden Gomez 的 ToB 盈利策略是什么?开源的意义在于削弱大公司垄断优势吗?...
3. 深度揭秘,宇树科技是如何用 9.9 万人形机器人撬动市场的?
宇树推出的人形机器人 Unitree G1 有哪些亮点?为什么从四足机器人转向到人形机器人?如何更好地将人形机器人和 LLMs 集成在一起?Unitree G1 9.9 万元的低价是如何实现的?...
...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 6 项,国外方面 12 项。
本期通讯总计 26183 字,可免费试读至 15% 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读① 英伟达 Nemotron-4 340B 火了!合成数据能否将大模型带入下一个阶段?
事件:近日,「卖铲子」的英伟达操心上了大模型「燃料」短缺问题,英伟达开源的 Nemotron-4 340B 系列模型引发热议,可快速生成医疗、金融、制造、营销等不同领域的数据,用于预训练和微调特定的模型。英伟达的新工作掀起热潮,是时候聚焦「合成数据」了![7] [8]1、近日,英伟达开源了 Nemotron-4 340B 系列模型,包含基础模型(Nemotron-4-340B-Base)、指令模型(Nemotron-4-340B-Instruct)和奖励模型(Nemotron-4-340B-Reward)三个模型,支持 RLHF(人类反馈强化学习)、LoRA(低序适配)、SFT(监督式微调)等主流高效微调方法,旨在为小模型生成用于训练的数据。① 研究人员在博客中介绍,开发人员通过该模型,可以快速生成医疗、金融、制造、营销等不同领域的数据,用于预训练和微调特定的大模型。2、具体来说,Nemotron-4 340B 采用了 Transformer 架构,并引入了旋转位置嵌入(RoPE)优化算法和 MOE(Mixture of Experts)架构,使得 Nemotron-4 340B 在常识推理任务以及 BBH 等主流基准上实现了行业最高的准确率,并且在 MMLU 代码基准上具备了较高的竞争力。值得注意的是,指令模型版本用于对齐训练的数据集包含 98%的合成数据,可用于合成数据。① 在模型对齐方面,Nemotron-4 340B 使用了一种新的算法,即奖励感知偏好优化,通过使用由策略网络定义的隐式奖励来近似奖励差距。与直接偏好优化算法相比,奖励感知偏好优化学习近似奖励差距可以防止过拟合难题。② 此外,Nemotron-4 340B 的三个版本模型可以与英伟达的多模态大模型开发框架 NeMo 以及高效推理框架 TensorRT-LLM 相结合使用。3、Nemotron-4 340B 的基础模型、指令模型、奖励模型形成了一个 pipeline,用于生成训练和改进 LLM 的合成数据。① 指令模型首先用于生成基于文本的合成输出。然后,奖励模型评估生成的文本并提供反馈,指导迭代改进并确保合成数据准确、相关且符合特定要求。4、在技术论文中,研究者对合成数据生成(SDG)pipeline 进行了详细地介绍,关键步骤包括:① Prompt Preparation(提示准备):研究者采用了多维度的方法来确保提示的多样性,包括任务多样性(如写作、开放式问答、封闭式问答等)、主题多样性(如科学、人文、日常生活等)和指令多样性(如 JSON 格式输出、段落数要求等)。② Synthetic Dialogue Generation(合成对话生成):研究者设计了一种三回合的对话结构,通过模拟助手和用户的角色交替,生成更加自然和动态的对话数据。③ Synthetic Preference Data Generation(合成偏好数据生成):偏好数据的生成涉及到对多个模型生成的响应进行评估和排序。研究者使用了奖励模型来评估响应的质量,并基于这些评估结果选择被采纳和被拒绝的响应。④ Iterative Weak-to-Strong Alignment(迭代弱到强对齐):研究者提出了一种迭代方法,通过不断优化数据生成模型,逐步提升合成数据的质量。⑤ Integration with Human Data(与人类数据的整合):研究者将合成数据与人类注释的数据结合使用,使得模型能够学习到更准确的对齐信号,提高了数据的多样性,同时增强了模型对真实世界数据的理解。5、英伟达的该项工作提高了业内对于合成数据的关注度。英伟达的 CEO 黄仁勋在此前的一场活动中表示,「下一代 AI 需要理解物理世界。一种方式是通过视频多模态数据,另一种则是使用合成数据,让 AI 学习,并实现 AI 之间的互相学习,以促进 AI 的进一步发展。」作为大模型「燃料」:合成数据不仅只是真实数据替身这么简单1、随着模型规模的进一步增大,需要的训练数据越多,海量、优质的数据已经成为各家大模型争夺的关键。随着真实可用的训练数据、语料的枯竭,合成数据成为模型训练的「新解药」,其重要性不言而喻。① 据人工智能研究机构 Epoch AI 的预测,语言数据可能在 2030-2040 年耗尽,其中高质量的文本训练数据甚至可能在 2026 年耗尽。2、首先,我们先明确合成数据的概念。在 Google DeepMind 的论文《Best Practices and Lessons Learned on Synthetic Data for Language Models 》中提到,合成数据是指通过算法、生成模型甚至是模拟生成的人工数据,而不是由人类直接创建的,其特征和模式模仿真实世界数据。[9]3、高质量数据是目前大模型技术发展的主要瓶颈之一,而合成数据可作为真实数据的补充或替代,为模型提供训练材料,通常用于数据预处理、模型训练、数据集增强等场景。合成数据的优势主要包括以下几点:① 可以大规模生成,为人工智能模型提供丰富的训练和测试数据,拓展了训练数据的多样性。尤其是在现实世界数据稀缺或难以获取的领域的情况下;② 可以根据特定需求进行定制,比如通过引入受控变化来确保不同类别的平衡表示,这种对数据特征的控制可以提高模型性能和泛化能力;③ 合成数据可以通过创建不包含敏感个人信息的匿名或去标识数据集来帮助缓解隐私问题,尤其是在医疗保健领域。4、那么,合成数据是如何生成的?合成数据的生成方法包含很多种,如基于数学模型的生成、基于机器学习的生成、基于随机过程的生成等。在上述 Google DeepMind 的论文中,详细描述了合成数据常见的几种生成方法及背后的技术。[9]首先分析真实数据以确定其潜在的统计分布,例如正态分布、指数分布或卡方分布。然后,从这些已识别的分布中生成合成样本,以创建在统计学上与原始数据集相似的数据集。对真实数据进行脱敏和扰动,包括去除或替换真实个人身份和敏感信息,以保护数据的隐私。如可以使用数据加密、数据模糊化或数据扰动等方法来处理真实数据,生成合成数据。通过训练机器学习模型以理解和复制真实数据的特征。经过训练的模型可以生成与真实数据具有相同统计分布的人工数据。该方法对于创建混合数据集更为合适,混合数据集将真实数据的统计特性与其他合成元素相结合。使用生成对抗网络(GAN)、变分自动编码器(VAE)等高级技术来生成合成数据。这些方法通常用于更复杂的数据类型,例如图像或时间序列数据,并且可以生成高质量的合成数据集。5、接下来,进一步理清楚合成数据在大模型训练中如何应用。合成数据在大模型训练中主要涉及两大环节:一是预训练阶段,二是用于对齐阶段。[11]① 在预训练阶段,合成数据占比不大,主要是起到对模型训练语料的补充作用。一方面,合成数据可应用于多模态数据的生成,如文生视频模型 Sora 采用了大量由游戏引擎合成的视频数据作为训练集。另一方面,合成数据可应用于高价值领域知识的生成,通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用,提升模型对数据利用的可能性。② 在对齐阶段,合成数据主要的作用是大幅提升对齐数据的获取效率,即在此前「Week 04 会员通讯」中介绍的 RLAIF 技术,采用 AI 反馈强化学习的思路,用 AI 替代人类进行偏好标注。通常是用一个较大规模模型产出合成数据,生成指令及输入和输出样本,过滤掉无效或重复信息,自动化微调出性能较好的小模型。全过程中几乎无需人类标注,进而大幅降低了标注成本,同时缓解人工对齐导致模型对敏感问题拒答的情况。6、此外,如何利用 LLMs 生成高质量的合成数据也是值得关注的一个方向。在新加坡南洋理工大学的论文《Generative AI for Synthetic Data Generation: Methods, Challenges and the Future》中提到,生成合成训练数据的方法主要涉及以下几个方面:[10]① 提示工程:设计有效的提示是使用 LLMs 生成数据的关键。通过在提示中嵌入标签信息,指导 LLMs 生成与任务相关的数据。此外,还可以使用语言化器(Verbalizer)技术,通过扩展目标标签词及其语义相似的邻近词,来促进多样化数据的生成。② 参数高效任务适应:该方法通常指只调整 LLMs 一小部分参数的调整方法,例如偏置项、嵌入或最后一层,或者向 LLMs 中插入额外的参数集,如 Adapters、Prompt Tuning 等。在调整过程中,不更新 LLM 主干的参数,只学习小量的可训练参数,以实现领域适应。虽然合成数据对于大模型来说至关重要,但因合成数据存在的真实性、保真度以及偏见等问题,合成数据的在实际应用中仍存在不少难题和挑战。1、真实性和保真度:生成的合成数据可能无法完全捕捉真实数据的复杂性和多样性。合成数据的质量和真实性是一个关键问题,需要确保生成的数据能够准确地反映真实数据的特征和分布。2、泛化性和过拟合:训练虚假、幻觉或偏见合成数据的模型可能无法泛化到现实世界场景,合成数据生成的模型可能过度拟合原始数据,导致在新的环境中表现不佳。3、偏见性:由于合成数据是人工生成而非从现实世界来源收集的,可能无法准确代表人类价值观和偏好的细微差别和复杂性,这种差异会导致人工智能模型学习来自偏差的、缺乏依据的或误解现实世界场景的数据,由此可能会放大偏差或引入新的偏差,使解释和理解人工智能模型的决策过程变得困难。4、滥用问题:合成数据的滥用可能会扩散错误信息。同时,合成数据驱动的错误信息的传播会侵蚀人们对合法信息来源的信任,使人们越来越难以区分真假信息5、对齐阶段导致人工智能目标的模糊性:在对齐阶段中越来越多地使用合成数据可能会引入重大歧义和不确定性。而人工智能目标对齐的目标是确保人工智能系统以符合人类价值观和意图的方式运行。6、可解释性和透明性:合成数据生成的过程通常是黑盒的,难以解释生成数据的具体原理和依据。这可能导致合成数据的可解释性和可信度受到质疑,特别是在一些敏感领域和决策应用中。1、目前,高质量的训练数据逐渐被耗尽成为模型无法进一步智能化的瓶颈。OpenAI、Google、Anthropic 等大厂已经纷纷布局,研究如何生成合成数据。但合成数据能否真正解决数据瓶颈的难题,业内仍存在质疑的声音。① 莱斯大学、斯坦福大学等机构发表的论文《Self-Consuming Generative Models Go MAD》指出了「模型自噬紊乱(Model Autophagy Disorder,MAD)」的情况,即人们使用生成模型的频率越来越高,将会导致互联网上由生成模型创作的内容越来越多,重复这一过程会创建一个自噬(self-consuming)的循环。如果每一代的自噬循环中没有足够的新鲜真实数据,未来的生成模型注定会逐渐降低其质量(精确度)或多样性(召回率)。[12]② 同样,类似的研究,莫纳什大学数据研究员 Jathan Sadowski 指出模型存在「哈布斯堡诅咒」,在使用模型生成的数据来训练新模型时,模型过度依赖由前代模型生成的数据进行训练,可能导致信息的失真和质量下降。③ 推特博主「Dr_Gingerballs」认为,通过使用人工智能生成更多数据用于训练模型在逻辑上不通,使用一个已经训练好的模型来生成更多数据训练新模型,得到的仍然是基于原有模型的数据,而不是真实世界分布的数据。[13]