Bendi新闻
>
ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐

ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐

14天前

微信扫码关注该文公众号作者

来源:PaperWeekly

相关新闻

ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐无需训练实现价值观实时动态对齐:上交开源价值观对齐方法,闭源与开源大模型均适用无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用大语言模型对齐的四种方法!NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型无需人类或GPT-4打标签!南大&旷视研究院无监督范式大幅降低视觉大模型对齐成本人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐AGI会在人类未知的地方欺骗人类吗?揭露超级对齐范式下的“弱至强欺骗”现象CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度政府部门和一线医生之间,该如何对齐颗粒度?说说参加国家医保局座谈会的一些感受。离散化、对齐文本还是预训练,哪个才是 LLM 处理时序数据的关键?ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了今日arXiv最热大模型论文:大模型对齐告别微调,直接编辑表征空间即可解决可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术复旦发布层次性奖励学习框架,增强大模型人类偏好对齐今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性某基金的瓜!在公司厕所对齐颗粒度?医学顶刊MedIA 2024 | 残差对齐网络(RAN):多器官的非连续性形变配准ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。