Bendi新闻
>
向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」
向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」
9月前
论文标题:Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution 论文链接:https://arxiv.org/abs/2401.13996
智能体任务间经验迁移以实现自我进化概览图
智能体任务规划的 ICE 自我演化策略
在探索阶段,智能体记录下整个树状任务规划结构,并同时动态检测各个子目标的执行状态; 在固化阶段,智能体首先剔除所有失败的目标结点,之后对于每个成功完成的目标,智能体将以该目标为子树的所有叶子结点依次排开形成一条规划链(Workflow); 在利用阶段,这些规划链将被作为新任务目标分解细化的参考依据,以利用过往的这些成功经验。
智能体任务执行的 ICE 自我演化策略
在探索阶段,智能体动态记录每个目标执行的工具调用链,并对工具调用中出现的可能问题进行简单的检测归类; 在固化阶段,工具调用链将被转化为类似自动机的流水线(Pipeline)结构,工具调用顺序与调用之间的转移关系将被固定,同时还会去掉重复调用,增加分支逻辑等等让自动机自动化执行流程更加鲁棒; 在利用阶段,对于相似的目标,智能体将直接自动化执行流水线,从而提升任务完成效率。
ICE 策略能够显著降低模型的调用次数,从而提升效率,减少开销。 存储的经验在 ICE 策略下有着较高的复用率,这证明了 ICE 的有效性。 ICE 策略能够提升子任务完成率同时减少规划返修的次数。 通过以往经验的加持,任务执行对模型能力的要求显著下降。具体来看,使用 GPT-3.5 搭配上之前的任务规划与执行经验,效果可以直接媲美 GPT-4。
在探索 - 固化进行经验存储后,测试集任务在不同智能体 ICE 策略下的表现
在不同经验存储量下,测试集任务表现的消融实验结果统计
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym研究完荣耀的新机和系统,我怀疑他们想做“完全体华为”。AI投资高昂,中小银行如何策略性“以小搏大”?AI 投资高昂,中小银行如何策略性“以小搏大”?浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果「专业智能体指导」让小模型学会数学推理!微调Mistral-7B实现86.81%准确率从“百模”到“千体”:大模型智能体的竞争格局、商业模式和技术挑战华为卷爆智能「保温杯」,医用不锈钢,智能感温、提醒喝水、监测......港大发布XRec:首个让推荐系统「会说话」的智能大模型以梦为马,不负韶华,“钢琴王子”向音乐梦进发,《相约今宵》墨尔本站,倾情献唱!华为、苹果发布会「贴脸开大」,谁遥遥领先?吴清首度公开亮相!我到任这个岗位还没有“满月”,边学边干、以学为主以梦为马,不负韶华!“钢琴王子”向音乐梦进发,展现海外华人的豪迈之情!可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了乔布斯看了得哭!与小米、华为的AI 大模型应用打擂台,苹果盖不住的“安卓味儿”都上了热搜曝苹果国行 AI 与百度、阿里、百川接触/华为盘古大模型 5.0 发布/OpenAI CTO 称 GPT-4「智商」相当于高中生苹果深夜重磅发布:整合GPT-4o、Siri全面进化;华为否认曾对柔宇科技有投资计划;小米辟谣“买SU7补贴2万”丨邦早报吵翻天!全网群嘲澳洲大学“充多了”!2025QS世界大学排名公开!墨大、悉大力压清华,世界TOP20?网友:表情包来了...华为下场卷爆「保温杯」,316医用不锈钢,智能感温、提醒喝水、监测......“北大、清华.....”一次集齐31枚名校百年纪念邮票,中国邮政限量发行,祝您金榜题名!纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了手机销量“罗生门”:华为、荣耀、vivo,都是第一华为“乾崑”智能汽车解决方案来了!一口气连发十款新品,年底目标上车50万辆...