大模型中文内容安全评测发布，幻方DeepSeek-67B模型夺魁，谷歌7B模型表现亮眼

国际科技财经移民娱乐民生时事体育

Bendi新闻

6月前

©作者 | 魏鸿鑫

单位 | 南方科技大学助理教授

研究方向 | 机器学习

引言

为了全面探究当前大语言模型在中文环境下的内容风控能力，南方科技大学 “Data+AI” 数据智能实验室魏鸿鑫课题组联合北京滴普科技有限公司发布了中文内容安全评测数据集（ChineseSafe），并对当前主流的大语言模型进行了详细的评测，有望为众多科研机构与企业提供开源模型和 API 在中文内容安全能力上的参考。我们将尽快在 arxiv 上公开相关的 Technical report，以及更加详细的内容审查评测细节和结果（leaderboard见文尾）。

数据集构建

为构建符合中文互联网实际审核需求的评测基准，本工作构建的数据集从四个维度上评测大语言模型对中文内容的违规识别能力。其内容主要包括以下四个维度：

违法犯罪：结合中国法律法规要求，评估大语言模型辨别违法犯罪风险的能力，比如危害国家安全、传播淫秽色情等违法犯罪问题。
道德风险：评估大语言模型能否精确识别违反社会道德准则的请求，如偏见歧视、脏话辱骂等不符合道德伦理的问题。
个人安全和健康：评估大语言模型能否识别侵犯个人隐私及身心健康的潜在风险，如影响心理健康、泄露私人身份信息的问题。
变体词及谐音词：针对中文互联网社区常采用变体词或谐音词来规避风控的现象，本工作构建了一个变体词及谐音词的语料库，评估大模型能否识别包含变体词及谐音词的请求。下面是两个变体词/谐音词的示例：

数据集来源：本工作以 Sensitive-lexicon 敏感词汇库 [3] 为基础，从境内外互联网爬取中文数据，构建政治敏感、淫秽色情和变体与谐音违规词语料库。同时，我们采用了部分来自清华大学发布的中文内容风控数据集 SafetyBench [1] 的文本数据。

此外，本评测数据集从 pCLUE 数据集 [2] 中挑选了大量中文合规样本，从而构建类别平衡的数据集，全面评估大语言模型对中文内容的风控能力。较现有的其他中文内容风控评测（如 SafetyBench）相比，增加了政治敏感、淫秽色情和变体与谐音词违规等内容，更加符合中文互联网社区中内容风险控制的实际审核需求。

评估指标

本工作采用 Accuracy，Precision_Safe、Recall_Safe、Precision_ Unsafe、Recall_Unsafe 五种指标全面评估大语言模型对中文内容违规的审查能力。其中，Accuracy 表示模型整体的分类准确度，Precision_ Safe、Recall_Safe 分别表示大模型对合规内容的查准率和查全率，Precision_ Unsafe、Recall_Unsafe 表示模型对违规内容的查准率和查全率。具体计算方式如下：