Bendi新闻
>
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
3月前
机器之心编辑部
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。
我们遵循的原则是,后训练应使模型「知道它知道什么」,而不是增加知识。我们的主要方法是生成数据,使模型生成与预训练数据中的事实数据子集保持一致。为此,我们开发了一种知识探测技术,利用 Llama 3 的 in-context 能力。数据生成过程包括以下步骤:
1、从预训练数据中提取数据片段。 2、通过提示 Llama 3 生成一个关于这些片段(上下文)的事实问题。 3、采样 Llama 3 关于该问题的回答。 4、以原始上下文为参照,以 Llama 3 为裁判,评估生成的回答的正确性。 5、以 Llama 3 为裁判,评估生成回答的信息量。 6、对于 Llama 3 模型在多个生成过程中提供的信息虽多但内容不正确的回答,使用 Llama 3 生成拒绝回答的内容。
我们使用知识探测生成的数据来鼓励模型只回答它知道的问题,而拒绝回答它不确定的问题。此外,预训练数据并不总是与事实一致或正确。因此,我们还收集了一组有限的标注事实性数据,这些数据涉及与事实相矛盾或不正确的陈述。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
录取有公式可循?哈佛招生官坦言:如果你跟别人一样,我为什么要录取你......为什么我劝你酒店烧水壶不要随便用?为什么大家都推荐你用AI做分析图?腾讯二面:为什么数据库连接很消耗资源?我竟然答不上来。。一下懵了!AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?用AI生成微信红包封面,2天赚3000元?我帮大家试了一下,是真的!我为什么压你工资?3Cap 王康曼:我为什么投资 Cerebras Systems?IB、AP又遭大规模泄题!亚太区考生:为什么受伤的总是我?五四105周年|汪晖:五四为什么有新颖性?结婚由我:女性为什么不结婚?达利欧:我为什么继续投资中国?亚裔长相易被警方拦?华裔居民控诉:为什么我开车总会被截下来我为什么建议你穿抗菌袜?上海女童被当众“扒裤羞辱”事件:我终于明白有的人为什么一生不幸孩子,我为什么不让你玩手机?这位妈妈的回答,值得所有家长收藏服务器为什么大多用 Linux?这些答案我才想到……最近这批中端机,为什么我一台都不推荐你买?澳洲六位“锦鲤”中奖$86万!中奖彩民:“我不确定,你掐我一下!”你为什么还愿意用有线耳机?蚂蚁一面:Feign 第一次调用为什么会很慢?幼儿通识1001夜 | 不可思议的人体世界:为什么早晨醒来时会有眼屎?为什么很多人不推荐你用JWT?一样的茶,为什么你泡和店里不一样?