刺激！扣子模型广场上线，实时 PK 高下立见

7月前

倒计时一个月，我们将迎来巴黎奥运会盛大开幕，届时全球将见证各国运动健儿们在赛场上的巅峰对决。如果说奥运会是挑战体能极限的竞技场，那么字节跳动最新推出的「扣子模型广场」便是模型届的「竞技场」。

扣子（coze.cn）是“无代码” AI 应用开发平台，无论你是否懂编程知识，零基础也能轻松在扣子上快速搭建基于大模型的 Bot 应用，还能将 Bot 发布到豆包、飞书、微信客服、微信公众号等平台给大家使用。

这么说吧，现在我们在扣子平台开发一款智能体 Bot 简直是“分分钟”的事，但是在选择哪款大模型做支撑时却十分为难，因为扣子已接入豆包、通义千问、智谱、MiniMax、Moonshot 、baichuan等多个国内主流大语言模型。那么我们该如何客观、准确地选择最适合自己应用的大模型？

6 月 13 日，由扣子联合 Intel 推出的 AI 工坊（ Coze AI Factory ）活动火热开启，笔者发现伴随这个活动，扣子还重磅推出一个“大杀器”——扣子模型广场。据悉，扣子模型广场采用匿名、随机、对战的测评模式，提供指定 Bot 对战、随机 Bot 对战、纯模型对战三大形式，系统随机匹配大模型，先隐去背后的模型信息，由用户随机出题，两个模型实时 PK，用户根据模型的实际表现来评判，经投票后才会揭秘具体的模型，孰优孰劣一目了然。

太刺激了吧！像不像我们开发者常说的“Talk is cheap, show me the code”？通过扣子模型广场，开发者可以直观了解模型的优缺点，选择最适合自己的模型来落地 AI 应用。

图：模型广场

刺激！

模型实时 PK，高下立见

近年来，国内外大模型如雨后春笋般涌现，各类榜单测评层出不穷，用户眼花缭乱。但这些评分每一项代表什么？是否值得信任？业内没有统一标准。

一些传统评估数据集可能还会遭遇数据污染问题（模型在训练时期已接触过测试集的部分数据），导致用户对基准测试的可信赖度打上问号。尽管业内提出让大模型来做评估，然而这种方式受任务的难度影响，并且运行成本较高。

相比以上方法，人类评估是目前较可靠的方式，但如果仅依靠专家来打分，收集时间长，费用也较高。因此，国际开放研究组织 LMSYS Org 创新推出大模型竞技场 Chatbot Arena，通过众包人类评估的方式来进行大模型匿名评测，即用户输入问题，两个匿名大模型同时返回结果，用户对其表现进行投票。目前，Chatbot Arena 已成为海外具有公信力的大模型竞技场之一，该竞技场主要以模型对战的形式来 PK。

实际上，开发者在落地 AI 应用时，不仅关心各模型本身的核心能力，更关注其在特定细分领域与实际业务场景中的表现。当这些模型融入各自的 Bot 应用时，实际表现如何？哪个模型最适用？如何以低成本，公开、透明、客观的方式来检验不同模型的实力？

扣子模型广场延用 Chatbot Arena 的模型匿名 PK 形式，又往应用方向延展，不仅可 PK 模型，还 PK 不同模型在特定应用下的效果。我们只要打开扣子主页（coze.cn），点击搜索-模型广场，便可以参与三种对战形式：

指定 Bot 对战

你可以选择一个感兴趣或自创的 Bot 进行模型对战，扣子将随机选取两个匿名模型，基于 Bot 的 Promt、工作流、知识库等能力配置回答你的问题。用户可以直观看到评测模型在指定细分领域的文本生成、技能和知识调用等能力。

随机 Bot 对战

点击“随机开始”按钮，扣子将从上架 Bot 中随机选择一个 Bot 进行模型对战，和指定 Bot 对战形式一样，随机选择两个匿名模型，基于 Bot 的 Promt、工作流、知识库等能力配置来回答问题。和前一种方式不同的是，用户可以观察评测模型在任意业务场景下的表现。

纯模型对战

用户无需指定任何 Bot，点击“纯模型对战”按钮，扣子随机选择两个模型来 PK。在这种形式下，模型不受用户配置 Promt、工作流等限制和影响，更倾向测试模型本身的能力。

有了模型一轮轮的 PK 数据，还有用户的真实投票，笔者猜测未来扣子会不会也整一个模型排行榜呢？

笔者在体验以上三种方式的过程中，发现其中的设计逻辑很符合我们的开发思维。用户可能不懂什么是大模型，不理解 A 模型与 B 模型的区别，更看不懂高大上的测评数据。而用户可先通过“指定 Bot 对战”形式来测评不同模型在自家 Bot 的表现，随后通过“随机 Bot 对战”形式来了解模型在更多业务场景的表现几何，最后通过“纯模型对战”方式来 PK 模型本身的硬实力，各模型优劣立现，高下立判。

如此一来，扣子模型广场提供一个公开透明的平台，让任何人都能免费体验国内主流大模型。用户所见即所得，直观看到哪个模型较适合自己的应用，为选型提供有力的依据。在笔者看来，这是其他平台无法比拟的，是扣子模型广场最大的优势。可以说，扣子模型广场已是 Next Level。据观察，扣子目前已经支持了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型，相信后续会支持更多选项。

避免“劣币逐良币”

打造健康发展的大模型生态

通过扣子模型广场，吸引更多用户来参与模型 PK，经由用户真实票选的结果，相信比厂家各类营销更有参考性。从笔者来看，扣子模型广场能为开发者和企业带来以下三大价值和帮助：

一是透明公正，高下立见。扣子模型广场汇集当前多款国内主流大模型，提供多种创新竞技形式，以匿名形式有效消除用户的主观意识和个人偏好，让用户将注意力聚焦大模型能力本身，提供客观的模型评测结果。

大模型技术发展迅速，开发者如何将最新技术落地应用？通过扣子模型广场，用户无需复杂的访问权限，便可直接体验到国内主流大模型的能力，加快应用开发。

二是激励行业创新，避免“劣币驱逐良币”。大模型受到广泛关注后，伴随而来的各类营销此起彼伏，各类“领先”的口号比比皆是，各种“跑分刷榜”让人眼花缭乱，用户却无法全面、客观地了解大模型的真实水平，可能无法挑选最适合的模型，这将不利于行业发展，可能会出现“劣币驱逐良币”的情况。

扣子模型广场类似模型届的“奥运会”，提供统一对战环境，真实用户来充当评委，实时体验不同模型的差异，为其挑选合适的模型提供依据。

对厂商而言，在扣子模型广场匿名、实时反馈的环境里，无异揭开大模型产业的营销“面具”，促使行业聚焦技术创新，迭代升级产品，从而为用户创造更优质的体验。

三是有助于构建开放、公平、良性的大模型生态。扣子模型广场不仅激发厂商创新，还让用户以最快的速度、最经济的成本来快速验证模型，进一步加快落地 AI 应用速度，让 AI 普惠千行百业，助力行业构建良性发展的大模型生态体系。

降低开发门槛

人人都是 AI 应用开发者

据 IDC 发布《2024 AIGC应用层十大趋势白皮书》预测，2024 年全球将涌现出超过 5 亿个新应用，相当于过去 40 年间出现的应用数总和，智能化应用将呈现爆发式增长。

如果仅凭专业程序员来开发这些应用，是远远无法满足需求的。扣子以“无代码”的形式大大降低 AI 开发门槛，连小朋友也可以搭建复杂 Bot。只要有想象力，扣子让人人都能成为“开发者”。

更进一步，扣子提供插件集成、自定义插件开发、知识库管理、数据库记忆、工作流设计等核心功能，来满足用户 AI Bot 开发需求。目前扣子已上线 Bot 商店、插件商店、工作流商店等，让用户更加灵活、自主地挑选适合的工具来创新应用。此外，扣子支持文字、图片、语音、视频、GUI 卡片等多种模态的混合交互，让 Bot 更有温度，更融入我们的工作和生活。

基于扣子，用户零基础开始 AI 应用开发，快速验证模型能力，还可将应用分发到不同渠道。如此一来，扣子将 AI 应用开发、运营成本一降再降，并让用户聚焦 AI 应用创意实现。相信在扣子的加持下，未来将会诞生越来越多的 AI 应用开发者。

最后，附上笔者前文里提到的「 AI 工坊」主题 Bot 征集活动，这是一个很好的展示 AI 应用创新成果的舞台，感兴趣的读者可以一起参加。

扣子 AI 模型广场全新上线，点击「阅读原文」即刻体验！

更多内容，点击下方关注：

微信扫码关注该文公众号作者

来源：AI科技评论

刺激！扣子模型广场上线，实时 PK 高下立见

相关新闻