Bendi新闻
>
谷歌推出前沿安全框架:评估AI模型严重风险,4个领域影响最大

谷歌推出前沿安全框架:评估AI模型严重风险,4个领域影响最大

1月前

分析和减轻先进AI模型带来的未来风险。
编译 |  ZeR0
编辑 |  漠影
智东西5月18日消息,谷歌DeepMind昨晚推出AI前沿安全框架,并公布技术报告。

前沿安全框架是一套协议,强调了在AI模型发展过程中识别和缓解潜在风险的重要性,旨在主动识别未来可能造成严重伤害的AI能力,并建立检测和减轻它们的机制。
其计划是到2025年初全面实施这一初步框架。该框架侧重于模型级别的强大能力(如特殊机构或复杂的网络能力)所导致的严重风险,对谷歌的一致性研究进行补充。
在技术报告中,值得关注的是,保护安全性方面的主要缓解风险措施是保护模型权重,这里的安全似乎更多跟商业秘密相挂钩。

01.
三大关键组成:识别危害阈值,定期评估检测,应用缓解措施


今天公布的第一版框架建立在谷歌对前沿模型中关键能力评估的研究基础上,并遵循了负责任的能力扩展这一新兴方法。
该框架有3个关键组成部分:

1、识别模型可能具有的严重危害的能力阈值。谷歌DeepMind研究了模型在高风险领域中可能造成严重伤害的路径,然后确定模型在造成这种伤害中必须发挥作用的最小能力水平,被称作“关键能力阈值”(CCLs),它们指导了谷歌DeepMind的评估和缓解方法。
2、定期评估前沿模型,以检测它们何时达到这些关键能力阈值。谷歌DeepMind将开发模型评估套件,称为“早期预警评估”,当模型接近CCL时,它将提醒并频繁运行,以便研究人员在达到阈值前注意到。
3、当模型达到早期预警评估时,应用缓解计划。这应考虑到利益和风险的总体平衡,以及预期的部署环境。这些缓解措施将主要关注安全性(防止模型泄露)和部署(防止滥用关键能力)。

02.
两类缓解措施管理关键能力,
4个领域最有可能造成严重风险


前沿安全框架提出了两类缓解措施:一是防止模型权重泄露,二是管理对部署中关键能力的访问并限制其表达
对于每一类缓解措施,谷歌DeepMind都制定了若干级别,使其能够根据所构成的风险调整措施的稳健性。
下表描述了可应用于模型权重以防止其泄漏的安全缓解级别。

根据技术报告,模型权重的泄露可能允许移除任何训练到模型中或与模型一起部署的保障措施,并因此访问(包括不良参与者)任何关键能力。
更高级别的安全缓解可以更好地防止模型权重的泄露,更严格地管理关键能力。但这些措施也可能减慢创新的速度,并降低能力的广泛可及性。
下表描述了部署缓解级别,以管理对部署中关键能力的访问并限制其表达。

关键能力的滥用可能或多或少难以与有益的使用区分开来,并且滥用的总体风险可能因部署上下文而异。因此,这里列出的缓解选项是说明性的,需针对不同的用例和风险进行调整。
谷歌DeepMind最初研究表明,未来基础模型的能力最有可能在这4个领域造成严重的风险:自主、生物安全、网络安全和机器学习研发
自主性、网络安全和生物安全方面,其主要目标是评估威胁行为者使用具有先进能力的模型进行有害活动并造成严重后果的程度。
对于机器学习研发而言,重点在于具有此类能力的模型是否能够使具有其他关键能力的模型得以传播,或者是否能够使AI能力快速且难以管理地升级。
其技术报告详细介绍了通过对自主性、生物安全、网络安全和机器学习研发风险领域的初步分析确定的一组初始CCL。

随着进一步研究,谷歌DeepMind预计这些CCL将不断发展,并增加更高级别或其他风险领域的CCL。

03.
结语:坚持AI原则,定期审查和改进框架


该框架背后的研究刚刚起步,且进展迅速。谷歌DeepMind在前沿安全团队上投入了大量资金,协调了框架背后的跨职能工作,职责是推进前沿风险评估科学,并根据改进的知识完善其框架。
该团队开发了一个评估套件来评估关键能力的风险,特别是强调自主大语言模型agent,并在谷歌最先进的模型上进行了实际测试。
他们最近在描述这些评估的论文中还探讨了可能形成未来“早期预警系统”的机制。该系统描述了评估模型在当前无法完成的任务中离成功还有多远的技术方法,还包括一个专家预测团队对未来能力的预测。
遵循谷歌AI原则,谷歌DeepMind将定期审查和改进前沿安全框架,逐步加深对风险范畴、CCL和部署上下文的理解,并将继续校准针对CCL的具体缓解措施。
谷歌DeepMind希望与产学界和政府多方合作,共同开发和完善该框架,就评估未来几代AI模型安全性的标准和最佳实践达成一致。
来源:谷歌DeepMind

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

来源:智东西

相关新闻

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级AI早知道|谷歌推出文生视频模型Veo;百度发布全球首个支持 L4 级自动驾驶的大模型OpenAI创始人:目前的首要任务是推出新模型;三星发布搭载谷歌AI工具的Galaxy S24智能手机丨AIGC日报谷歌AI通过图灵测试,大模型医生来了?GPT-4竟诊断出难倒17个医生的怪病用GPT-4纠错GPT-4!OpenAI推出CriticGPT模型;谷歌Gemma 2发布,与第一代相比性能更高丨AIGC日报11年“AI老兵”破局AMA:破解谷歌BERT大模型,吃AI红利拿offer,真香!AI早知道|华为HarmonyOS Next开放申请;三星发布AI手机Galaxy S24;谷歌推出几何模型不踩雷!多伦多周边5个谷歌评分4分+的摘樱桃果园:哪家采摘体验感最佳?工信部发AI产业建设指南草案;小米申请注册大模型商标;谷歌推出画圈搜索功能丨AIGC大事日报谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文谷歌CEO最新访谈:AI浪潮仍处于早期阶段,公司未来最大威胁是执行力不足拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......谷歌连放大招:Gemini Pro支持中文,Bard学会画画;库克:苹果将在今年晚些时候推出生成式AI功能丨AIGC日报智谱AI获中东财团 4 亿美元投资;老板跑路,900多员工一脸懵:上午改bug、下午解散;谷歌云部门大规模裁员 | AI周报国内大模型五虎融资仅是巨头零花钱?谷歌、微软、Meta:每季度拿不出 100 亿美元别玩 AI国内大模型五虎融资仅是巨头零花钱?谷歌、微软、Meta:每季度拿不出100亿美元别玩AI斯坦福15张图揭示最新AI 动态:开源风评又“被害”,谷歌、OpenAI争当基础模型“劳模”Anthropic:大模型的欺骗行为难以消除;AI将影响全球近40%的就业岗位,对发达国家冲击最大丨AIGC日报【行业日报】瑞银集团将出售80 亿美元瑞士信贷资产!谷歌推出AI 加速器计划!谷歌跌超4%!谷歌AI人物成像新功能“离大谱”,美国国父大变黑人,拟下线几周【行业日报】美商务部要求微软谷歌通报AI模型!摩根斯坦利加倍私人信贷组合!AI时代:为何谷歌、亚马逊、微软全力投入绿色能源?| 经济学人商业
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。