Bendi新闻
>
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
1年前
新智元报道
新智元报道
【新智元导读】谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。
大模型的「幻觉」问题马上要有解了?
威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。
如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。
如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成「我没法回答这个问」,从而有望最大限度的改善幻觉问题。
论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能让LLM输出答案以及答案的置信度得分。
研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。
让LLM不仅要回答问题,还要评估这些答案 。
在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。
就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。
这就是ASPIRE的本质,它涉及三个阶段:
(1) 针对特定任务的调优,
(2) 答案采样,
(3) 自我评估学习。
在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。
如果LLM可以成为决策过程中值得信赖的合作伙伴。
只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。
研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。
针对特定任务的微调
答案采样
自评估学习
微信扫码关注该文公众号作者
来源:新智元
相关新闻
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」准确率比现有方法高50%!谷歌DeepMind全新深度学习模型AlphaFold 3重磅论文登上《自然》被 Sora 抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型 Gemma被Sora抢了风头的谷歌“杀”回来了!谷歌的一群“书呆子”卷出了最强开放模型Gemma「专业智能体指导」让小模型学会数学推理!微调Mistral-7B实现86.81%准确率2亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」第一个制定了AI 议程的奥运会开幕了!谷歌、阿里等厂商的大模型也来“干活”了11年“AI老兵”破局AMA:破解谷歌BERT大模型,吃AI红利拿offer,真香!大模型“挣钱”新方法!用GPT-4优化众筹文稿,提高筹款成功率11.9%!谷歌发布“Vlogger”模型:单张图片生成10秒视频苹果确认计划“在未来”集成谷歌Gemini模型;意大利AI初创公司iGenius寻求融资6.5亿欧元丨AIGC日报Meta最新进展!大模型“超级外挂”:LLM RAG斯坦福15张图揭示最新AI 动态:开源风评又“被害”,谷歌、OpenAI争当基础模型“劳模”CVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?Meta最新进展!“超级外挂”RAG如何让大模型不再胡说八道?专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50未来已来!OpenAI一夜改变人机交互历史,全新「类人模型」能力爆表,自然交流如真人「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳246篇文献!参数高效微调最新综述发布,让大模型不再「巨无霸」雷军、周鸿祎两会力挺大模型,隔壁印度GenAI却要被谷歌Gemini“扼杀”?微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型AIGC大模型第一股,成「五一档」超强黑马!交易量股价双创新高浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果