Bendi新闻
>
Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

夕小瑶科技说 原创
作者 | 任同学
Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型,并没有说明发布日期。模型还没发布,但API先来了!

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型,尤其是在字体和提示遵循方面。

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口,来快速开发有趣的应用程序了!

与网友们的预期不同的是,这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择,难道这是另一个大招吗?

虽然模型还未开源,但StabilityAI 承诺:

我们致力于开放生成式人工智能,计划在不久的将来对 Stability AI 会员资格开放模型权重,实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻:😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着“全城最佳景观”。(A red sofa on top of a white building. Graffiti with the text “the best view in the city”.)

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。(Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.)

▲图3.

提示: 唯美的粉彩魔幻现实主义,一个男人以复古电视为头,站在沙漠中央,复古的照片。(Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.)

▲图4.

提示: 一个纸板箱,上面写着“他们说在这里不适合思考”,这个纸板箱很大,放在剧院的舞台上。(A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.)

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示,他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作,提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI,StabilityAI 将可以提供企业级 API 解决方案,确保 99.9% 的服务可用性。

不过,官网提供的 Pricing 显示,SD3 是比 SD3 Turbo 更好的模型,价格差不多比后者高了 40%!按道理说,Turbo 不是应该更贵吗?🤔

目前的每 1000 credits 的价格是 10 美元,大概可以用来购买 5000 张 SDXL 1.0 的图片,而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

▲图1.

Stable Diffusion 3 有多强?

在 2 月份发布的论文中,我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型,包括其他开源模型(包括 SDXL,SDXL Turbo,Stable Cascade,Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL・E 3,Midjourney v6 和 Ideogram v1)。

▲图6.

对比上代模型,SD3 采用了与Sora类似的 Diffusion Transformer 技术,并结合了流匹配(Flow Matching)等多项技术改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer(MMDiT)架构使用独立的权重集合来表示图像和语言,这与以前版本的 Stable Diffusion 相比,提高了文本理解和拼写能力。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。

具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为强大的 SD3 模型提供了基础。

网友们怎么看?

StabilityAI 创始人兼 CEO,Emad Mostaque 曾表示,与视频、语言、代码、3D、音频等一样,Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了?

不过,底下的网友们也对开源和闭源有着更宽容的理解,也希望公司能够在开源和赚钱之前找到一个平衡点,不要彻底成为下一个 ClosedAI(手动狗头)。

最后,送给各位潜在的艺术家hh:

参考资料

 [1]https://stability.ai/news/stable-diffusion-3
 [2]https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/
 [3]https://twitter.com/StabilityAI/status/1780599024707596508
 [4]https://stability.ai/news/stable-diffusion-3-research-paper
 [5]https://stability.ai/news/stable-diffusion-3-api

微信扫码关注该文公众号作者

来源:夕小瑶科技说

相关新闻

首个ICLR时间检验奖出炉!3万被引论文奠定图像生成范式!DALL-E 3/SD背后都靠它成就了Sora和Stable diffusion 3的DiTs,究竟是啥Stable Diffusion 3 论文终于发布,架构细节大揭秘,对复现 Sora 有帮助?OpenAI劲敌出手!Claude 3正式发布,超越GPT-4,一口气读15万单词手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据首个ICLR时间检验奖出炉!3万被引论文奠定图像生成范式,DALL-E 3/SD背后都靠它梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单OpenAI发布首个由Sora制作的MV;DALL-E 3灰度测试局部重绘功能丨AIGC日报抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3Stable Diffusion 3开源秒翻车,画人好掉sanOpenAI将推出新工具,能识别由DALL-E 3创建的图像;软银正在洽谈收购英国AI芯片公司Graphcore丨AIGC日报Nature:AlphaFold 3发布!正在突破越颜宁质疑、改写新药研发!限时3天!和胡兵一起打卡DFS购物节!大牌美妆、服饰低至4.5折!更有$12000抽奖豪礼相送,中奖率100%!面壁低调开源新模型:早于Llama 3、比肩Llama 3、推理超越Llama 3!最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上华盛顿樱花两日游全盛最后两期出发!3/30和4/1出发,错过等明年!Runway踢馆Luma,重磅发布Gen-3 Alpha!10秒视频仅需90秒AI围剿创意产业!1/3翻译和1/4插画师或将失业全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用大模型新王诞生!Claude 3首次超越GPT4“GPT-5”发布时间曝光!GPT-3是幼儿,GPT-4像高中生,新一代大模型将达博士水平马斯克遭爆料升格当12宝爸!和下属有了第3孩别等 Sora 了!Runway 深夜发布 Gen-3 模型,演示惊艳网友,AI 视频卷出新高度马斯克遭爆料升格当12宝爸!和女下属有了第3个孩子!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。