商汤全球首发的这个功能,就连OpenAI都还没做到
新智元报道
新智元报道
【新智元导读】就在刚刚,全新升级4.0的日日新大模型发布!不仅如此,商汤还抢先OpenAI首发了支持不同模态工具调用的Assistants API!现在,超千万的中文开发者可以轻松玩转「文生图」和「图生文」了。
就在刚刚,商汤新一代「日日新SenseNova 4.0」大模型体系全面升级,多项任务性能超越GPT-4。
与此同时,全球首个支持不同模态工具调用的Assistants API,也在今日发布!
API申请网址:https://platform.sensenova.cn/
除了商量大语言模型、秒画文生图大模型外,商汤还发布了大语言模型的数据分析版本、升级了医疗版本「大医」等,将LLM通用能力推向更多领域。同时还有备受期待的多模态大模型。
值得一提的是,商汤最新的Assistants API内置多种工具,支持「文生图」与「图生文」的工具属实是全球首发,目前就连OpenAI也还无法做到!
当我们将大模型和各类应用服务工具连接起来,开发者就轻松拥有了强大的AI助手,LLM「大脑」就有了「眼睛」和「手臂」。
现在,到商汤日日新SenseNova4.0平台,国内的开发者和用户就能在一个系统里,轻松调用图文多模态能力了。
全新SOTA模型+Assistants API,轻松拿捏各种任务
智能识图
图像理解是任何多模态模型必不可少的技能。
比如,给模型一张行车路况图,乍一看,貌似是一道考验OCR能力的题目。
实则不然,想要正确回答这道题,它不仅需要将图中占比较小的多块指示牌上的字体提取出来,还需要进行推理,最终才能判断出去黄石东路怎么走。
再输入一幅画,它便一眼认出这是油画,还可以精准地将作品中的各种细节特征描述出来,比如蝴蝶的动态、昆虫的颜色。
甚至,基于以上的一些特征总结,它还能进行深入分析,提供自身评价供我们参考。
此外,在海报识别上,它的表现也是十分出色——通过识别海报中的文字信息,便能确定海报主题。
还能快速解析海报主题相关的信息,结合文字信息和视觉信息读懂整幅海报的氛围。
服装穿搭,它也非常拿手,让你穿着打扮更有范儿。
当你问这件外套,该怎么搭配?
它会识别出衣服颜色款式,并会提供合适的穿搭建议,「配一件白色或浅色系的衬衫,下装选黑色或深棕色的裤子,然后配一双黑色的皮鞋」。
多模态模型能读懂的不只是氛围图,还有表情包。
比如一只倾头凝视的猫咪,以及背后传达的情绪与态度,都能识别出。
上传东方明珠的照片,它就会给出详细介绍。
图片生成
除了图像理解外,文生图功能还可以为你画出刚刚这个场景的夜景。
在线检索
在线检索工具,则是让我们拥有了访问外部知识的能力。
比如,让它查询上海各区最新的人口数据,就能给出准确的回应。
数据分析
此外,还可以通过对话进行文档和数据分析。
比如作为一个产品经理,想了解世界范围内各个APP的使用情况,就只需要上传一份APP使用数据的excel表格。
勤勤恳恳的小浣熊会立刻在左边对话框生成相应的Python代码,以及所要求的图表,并在右边给出对应的分析结果。
不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。
除此之外,它还可以分析多个表格之间的关联关系。比如看一下各地的水资源分布和他的人口数是否有相关性。
不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。以及如果对图表呈现感觉不满意,还能提出修改意见。
商汤日日新4.0发布
显然,这些能力的实现,都要靠强大的模型能力来提供支持。
目前,经过最新升级的日日新4.0,在整体表现上已经非常接近GPT-4的水平了。
相比之前版本,日日新 4.0拥有更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。
具体来说:
- 而推理能力则达到了GPT-4 Turbo 99%的水平
商量大语言模型-通用版本(SenseChat V4):4K/32k/128k全面升级,测试成绩比肩GPT-4
我们看到,研究团队新增了包括业务通用、数学能力、K12考试和文学期刊数据的约600B tokens的中英文预训练语料,从而让模型的理解能力和输出质量有了质的提高。
此外还对模型进行了4次超强的预训练,使得模型在阅读理解、综合推理、代码能力等任务上实现了5%-10%的定向性提升。
针对不同的使用场景,他们分别升级了4k、32k、128k三种上下文窗口模型的性能,拓展了应用范围。
其中SenseChat-32k可支持约三万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在理解能力上实现了超越。
而「旗舰级」的SenseChat-128k,更是可以支持约十二万以上的中文长文本总结,并且同样在理解能力方面实现了对GPT-4的超越。
在「大海捞针」实验中128k、32k都实现了近乎完美的召回率,整体表现超过GPT-4。
日日新·商量大语言模型-数据分析版本(SenseChat-DataAnalysisCode V4)
除此之外,商汤还新增了商量大语言模型-数据分析版本以及数据分析工具「办公小浣熊」,能理解多种表格和文件类型以及复杂表格处理。
可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。
结果显示,模型在1000+测试集上的精度超越GPT-4(85.71% vs 84.62%),并且在强大的中文理解能力加持下,更能够满足国内数据分析的需求。
日日新·商量大语言模型-医疗版本「大医」(SenseChat-Medical V4)
医疗场景下,「大医」在多轮对话与上下文理解能力上面实现了性能的大幅提升。
它还可以有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。
在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。
成绩超越了多个通用及医疗垂类开源大语言模型,体现了非常高的专业垂直领域的落地性能。
2023年职业药剂师考试大模型评测
中文医疗大语言模型的开放评测平台MedBench
日日新·商量多模态大模型(SenseChat-Vision V4):不止「看」到,还能 「读」懂
日日新·秒画文生图大模型(SenseMirage V4):细节质量大幅提升,实现电影级质感
Assistants API首次支持不同模态工具调用
- 持久对话,意味着开发者不用再为如何处理长历史会话而烦恼
- 支持对检索(Retrieval)、代码解释器(Code Interpreter)等OpenAI托管工具的访问
微信扫码关注该文公众号作者