刺激!扣子模型广场上线,实时 PK 高下立见
倒计时一个月,我们将迎来巴黎奥运会盛大开幕,届时全球将见证各国运动健儿们在赛场上的巅峰对决。如果说奥运会是挑战体能极限的竞技场,那么字节跳动最新推出的「扣子模型广场」便是模型届的「竞技场」。
扣子(coze.cn)是“无代码” AI 应用开发平台,无论你是否懂编程知识,零基础也能轻松在扣子上快速搭建基于大模型的 Bot 应用,还能将 Bot 发布到豆包、飞书、微信客服、微信公众号等平台给大家使用。
这么说吧,现在我们在扣子平台开发一款智能体 Bot 简直是“分分钟”的事,但是在选择哪款大模型做支撑时却十分为难,因为扣子已接入豆包、通义千问、智谱、MiniMax、Moonshot 、baichuan等多个国内主流大语言模型。那么我们该如何客观、准确地选择最适合自己应用的大模型?
6 月 13 日,由扣子联合 Intel 推出的 AI 工坊( Coze AI Factory )活动火热开启,笔者发现伴随这个活动,扣子还重磅推出一个“大杀器”——扣子模型广场。据悉,扣子模型广场采用匿名、随机、对战的测评模式,提供指定 Bot 对战、随机 Bot 对战、纯模型对战三大形式,系统随机匹配大模型,先隐去背后的模型信息,由用户随机出题,两个模型实时 PK,用户根据模型的实际表现来评判,经投票后才会揭秘具体的模型,孰优孰劣一目了然。
太刺激了吧!像不像我们开发者常说的“Talk is cheap, show me the code”?通过扣子模型广场,开发者可以直观了解模型的优缺点,选择最适合自己的模型来落地 AI 应用。
刺激!
模型实时 PK,高下立见
近年来,国内外大模型如雨后春笋般涌现,各类榜单测评层出不穷,用户眼花缭乱。但这些评分每一项代表什么?是否值得信任?业内没有统一标准。
一些传统评估数据集可能还会遭遇数据污染问题(模型在训练时期已接触过测试集的部分数据),导致用户对基准测试的可信赖度打上问号。尽管业内提出让大模型来做评估,然而这种方式受任务的难度影响,并且运行成本较高。
相比以上方法,人类评估是目前较可靠的方式,但如果仅依靠专家来打分,收集时间长,费用也较高。因此,国际开放研究组织 LMSYS Org 创新推出大模型竞技场 Chatbot Arena,通过众包人类评估的方式来进行大模型匿名评测,即用户输入问题,两个匿名大模型同时返回结果,用户对其表现进行投票。目前,Chatbot Arena 已成为海外具有公信力的大模型竞技场之一,该竞技场主要以模型对战的形式来 PK。
实际上,开发者在落地 AI 应用时,不仅关心各模型本身的核心能力,更关注其在特定细分领域与实际业务场景中的表现。当这些模型融入各自的 Bot 应用时,实际表现如何?哪个模型最适用?如何以低成本,公开、透明、客观的方式来检验不同模型的实力?
扣子模型广场延用 Chatbot Arena 的模型匿名 PK 形式,又往应用方向延展,不仅可 PK 模型,还 PK 不同模型在特定应用下的效果。我们只要打开扣子主页(coze.cn),点击搜索-模型广场,便可以参与三种对战形式:
指定 Bot 对战
你可以选择一个感兴趣或自创的 Bot 进行模型对战,扣子将随机选取两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置回答你的问题。用户可以直观看到评测模型在指定细分领域的文本生成、技能和知识调用等能力。
随机 Bot 对战
点击“随机开始”按钮,扣子将从上架 Bot 中随机选择一个 Bot 进行模型对战,和指定 Bot 对战形式一样,随机选择两个匿名模型,基于 Bot 的 Promt、工作流、知识库等能力配置来回答问题。和前一种方式不同的是,用户可以观察评测模型在任意业务场景下的表现。
纯模型对战
用户无需指定任何 Bot,点击“纯模型对战”按钮,扣子随机选择两个模型来 PK。在这种形式下,模型不受用户配置 Promt、工作流等限制和影响,更倾向测试模型本身的能力。
有了模型一轮轮的 PK 数据,还有用户的真实投票,笔者猜测未来扣子会不会也整一个模型排行榜呢?
笔者在体验以上三种方式的过程中,发现其中的设计逻辑很符合我们的开发思维。用户可能不懂什么是大模型,不理解 A 模型与 B 模型的区别,更看不懂高大上的测评数据。而用户可先通过“指定 Bot 对战”形式来测评不同模型在自家 Bot 的表现,随后通过“随机 Bot 对战”形式来了解模型在更多业务场景的表现几何,最后通过“纯模型对战”方式来 PK 模型本身的硬实力,各模型优劣立现,高下立判。
如此一来,扣子模型广场提供一个公开透明的平台,让任何人都能免费体验国内主流大模型。用户所见即所得,直观看到哪个模型较适合自己的应用,为选型提供有力的依据。在笔者看来,这是其他平台无法比拟的,是扣子模型广场最大的优势。可以说,扣子模型广场已是 Next Level。据观察,扣子目前已经支持了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan等国内主流大语言模型,相信后续会支持更多选项。
避免“劣币逐良币”
通过扣子模型广场,吸引更多用户来参与模型 PK,经由用户真实票选的结果,相信比厂家各类营销更有参考性。从笔者来看,扣子模型广场能为开发者和企业带来以下三大价值和帮助:
一是透明公正,高下立见。扣子模型广场汇集当前多款国内主流大模型,提供多种创新竞技形式,以匿名形式有效消除用户的主观意识和个人偏好,让用户将注意力聚焦大模型能力本身,提供客观的模型评测结果。
大模型技术发展迅速,开发者如何将最新技术落地应用?通过扣子模型广场,用户无需复杂的访问权限,便可直接体验到国内主流大模型的能力,加快应用开发。
二是激励行业创新,避免“劣币驱逐良币”。大模型受到广泛关注后,伴随而来的各类营销此起彼伏,各类“领先”的口号比比皆是,各种“跑分刷榜”让人眼花缭乱,用户却无法全面、客观地了解大模型的真实水平,可能无法挑选最适合的模型,这将不利于行业发展,可能会出现“劣币驱逐良币”的情况。
扣子模型广场类似模型届的“奥运会”,提供统一对战环境,真实用户来充当评委,实时体验不同模型的差异,为其挑选合适的模型提供依据。
对厂商而言,在扣子模型广场匿名、实时反馈的环境里,无异揭开大模型产业的营销“面具”,促使行业聚焦技术创新,迭代升级产品,从而为用户创造更优质的体验。
三是有助于构建开放、公平、良性的大模型生态。扣子模型广场不仅激发厂商创新,还让用户以最快的速度、最经济的成本来快速验证模型,进一步加快落地 AI 应用速度,让 AI 普惠千行百业,助力行业构建良性发展的大模型生态体系。
降低开发门槛
据 IDC 发布《2024 AIGC应用层十大趋势白皮书》预测,2024 年全球将涌现出超过 5 亿个新应用,相当于过去 40 年间出现的应用数总和,智能化应用将呈现爆发式增长。
如果仅凭专业程序员来开发这些应用,是远远无法满足需求的。扣子以“无代码”的形式大大降低 AI 开发门槛,连小朋友也可以搭建复杂 Bot。只要有想象力,扣子让人人都能成为“开发者”。
更进一步,扣子提供插件集成、自定义插件开发、知识库管理、数据库记忆、工作流设计等核心功能,来满足用户 AI Bot 开发需求。目前扣子已上线 Bot 商店、插件商店、工作流商店等,让用户更加灵活、自主地挑选适合的工具来创新应用。此外,扣子支持文字、图片、语音、视频、GUI 卡片等多种模态的混合交互,让 Bot 更有温度,更融入我们的工作和生活。
基于扣子,用户零基础开始 AI 应用开发,快速验证模型能力,还可将应用分发到不同渠道。如此一来,扣子将 AI 应用开发、运营成本一降再降,并让用户聚焦 AI 应用创意实现。相信在扣子的加持下,未来将会诞生越来越多的 AI 应用开发者。
最后,附上笔者前文里提到的「 AI 工坊」主题 Bot 征集活动,这是一个很好的展示 AI 应用创新成果的舞台,感兴趣的读者可以一起参加。
扣子 AI 模型广场全新上线,点击「阅读原文」即刻体验!
更多内容,点击下方关注:
微信扫码关注该文公众号作者