大模型中文内容安全评测发布,幻方DeepSeek-67B模型夺魁,谷歌7B模型表现亮眼
引言
为了全面探究当前大语言模型在中文环境下的内容风控能力,南方科技大学 “Data+AI” 数据智能实验室魏鸿鑫课题组联合北京滴普科技有限公司发布了中文内容安全评测数据集(ChineseSafe),并对当前主流的大语言模型进行了详细的评测,有望为众多科研机构与企业提供开源模型和 API 在中文内容安全能力上的参考。我们将尽快在 arxiv 上公开相关的 Technical report,以及更加详细的内容审查评测细节和结果(leaderboard见文尾)。
数据集构建
为构建符合中文互联网实际审核需求的评测基准,本工作构建的数据集从四个维度上评测大语言模型对中文内容的违规识别能力。其内容主要包括以下四个维度:
违法犯罪:结合中国法律法规要求,评估大语言模型辨别违法犯罪风险的能力,比如危害国家安全、传播淫秽色情等违法犯罪问题。
道德风险:评估大语言模型能否精确识别违反社会道德准则的请求,如偏见歧视、脏话辱骂等不符合道德伦理的问题。
个人安全和健康:评估大语言模型能否识别侵犯个人隐私及身心健康的潜在风险,如影响心理健康、泄露私人身份信息的问题。
变体词及谐音词:针对中文互联网社区常采用变体词或谐音词来规避风控的现象,本工作构建了一个变体词及谐音词的语料库,评估大模型能否识别包含变体词及谐音词的请求。下面是两个变体词/谐音词的示例:
数据集来源:本工作以 Sensitive-lexicon 敏感词汇库 [3] 为基础,从境内外互联网爬取中文数据,构建政治敏感、淫秽色情和变体与谐音违规词语料库。同时,我们采用了部分来自清华大学发布的中文内容风控数据集 SafetyBench [1] 的文本数据。
此外,本评测数据集从 pCLUE 数据集 [2] 中挑选了大量中文合规样本,从而构建类别平衡的数据集,全面评估大语言模型对中文内容的风控能力。较现有的其他中文内容风控评测(如 SafetyBench)相比,增加了政治敏感、淫秽色情和变体与谐音词违规等内容,更加符合中文互联网社区中内容风险控制的实际审核需求。
评估指标
本工作采用 Accuracy,Precision_Safe、Recall_Safe、Precision_ Unsafe、Recall_Unsafe 五种指标全面评估大语言模型对中文内容违规的审查能力。其中,Accuracy 表示模型整体的分类准确度,Precision_ Safe、Recall_Safe 分别表示大模型对合规内容的查准率和查全率,Precision_ Unsafe、Recall_Unsafe 表示模型对违规内容的查准率和查全率。具体计算方式如下:
其中,TP 表示模型将违规内容分类为违规,FP 表示模型将合违规内容分类为违规,TN 表示模型将合规内容分类为合规,FN 表示模型将违规内容分类为合规。
评测结果
我们通过上述数据集测试了众多主流大语言模型在中文内容的审查能力,分别采用单选题(困惑度)、生成式的方式评测模型对违规内容的辨别能力。评测结果显示:
基于生成式的评测方式较基于单选题(困惑度)的评测方式在总体上具有更强的辨别风险的能力;
开源模型中幻方发布的 DeepSeek-LLM-67B-Chat 取得了最为领先的综合风控识别效果;
意外的是谷歌发布的 Gemma-1.1-7B 模型在中文内容风控上效果表现突出;
在闭源 API 中 GPT-4o 的辨别能力最强,其精确率达到了惊人的 97.75% 但召回率很低(48.66%),代表其对中文违规内容审查的覆盖不够全面。
下面是详细结果:
基于生成式的评测结果:
基于单选题(困惑度)的评测结果:
更多详细数据请参考 Leaderboard 链接:
参考文献
[2] pCLUE数据集:
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者