Bendi新闻
>
ACL 2024|PsySafe:跨学科视角下的Agent系统安全性研究
ACL 2024|PsySafe:跨学科视角下的Agent系统安全性研究
5月前
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
Agent系统包含多种角色,每种角色都有其特定的设置和功能。 Agent系统涉及多个Agent,并且它们之间进行多轮的互动,这些Agents会自发地进行合作、竞争和模拟等活动。
什么样的Agent容易产生危险行为? 如何更全面的评测Agent系统的安全性? 如何应对Agent系统的安全性问题?
文章地址:https://arxiv.org/pdf/2401.11880 代码地址:https://github.com/AI4Good24/PsySafe
Agent确实变得非常恶劣!无论是安全任务还是像Jailbreak这样的危险任务,它们都会给出非常危险的回答。甚至有些Agent表现出了一定程度的恶意创造力。 Agent间会产生一些集体危险行为,大家合伙干坏事。
过程危险(PDR):在Agent交互过程中,只要有任一行为被判定为危险,就认为这个过程出现了危险情况。 联合危险(JDR):在每一轮交互中,所有Agent是否均展现了危险行为。它描述了联合危险的情况,并且我们对联合危险率的计算进行了时间序列扩展,即覆盖了不同的对话轮次。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
来源:机器之心
相关新闻
ETNA AF-China研究1年结果发布,艾多沙班用于中国房颤患者的疗效和安全性确切 | EHRA 2024游戏论・书评|作为审美教育的电子游戏:评《游戏美学研究视域下的个案分析》Nature:2024年最值得关注的七大技术!很可能就是你的创新性研究的基础ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐甲子光年:2024中国AI Agent行业研究报告ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?德勤研究总监解析:AIGC 时代下的数字人才发展与企业应对策略NSR | 多糖基薄膜在湿态环境下的力学性能和稳定性研究获得新进展万事达卡:2023-2024跨境旅游消费趋势研究报告秒针系统:2024大屏营销发展研究报告实证研究 | 针对女研究生的高校性骚扰:特征、现状、成因与应对机制消费,新时代的劳动|青山资本2024年中研究报告腾讯:大模型安全与伦理研究报告2024研究免疫的诺奖得主:免疫系统的勇士,如何排除异己?晓生研究院:2024东南亚跨境电商物流研究报告四大成果同期发布|2024 WAIC「探索下一代大模型的基础研究」论坛成功举办IDC:2024工业企业数字化的两种路径研究报告候静波教授专访:OCT的临床应用和最新研究进展 | CCIF 2024帝国理工刘教授-大数据驱动下的纽约市出租车运营优化研究|收获一作论文与导师推荐信!商务部研究院:2024跨境电商产业带高质量发展报告亿邦动力研究院:2023跨境支付安全科技与生态发展报告易车研究院:2024爷爷才是中国车市的玩酷子弟老年车市洞察报告毕马威:2024精准医疗的新时代生成人工智能对精准医疗领域的前所未有的影响研究报告【广发资产研究】一张图看懂《时代嬗变下的资产配置:全球杠铃策略——“债务周期大局观”系列(十一)》