Bendi新闻
>
4个令人兴奋的爆火AI项目,已开源!

4个令人兴奋的爆火AI项目,已开源!

8月前

大家好,今天继续聊聊科技圈发生的那些事。

一、DBRX

全球最强?开源 AI 大语言模型宝座的头把交椅易主?把 GPT 都整趴下了?

是的,你没有看错!Databricks 公布旗下 Mosaic Research 团队开发,号称最强开源 AI 大模型的 DBRX 已开源。

我们先来看看项目主页的简介:

Helping data teams solve the world's toughest problems using data and AI

翻译过来就是,帮助数据团队使用数据和人工智能解决世界上最棘手的问题。

真行么??

一个不可否认的事实:在性能方面,DBRX 公布的官方数据是战胜了现在的所有开源模型,包括 GPT-3.5、Llama-2 以及前不久刚开源的 Grok-1。

先来看看这些数据:

  • DBRX 用了约 1320 亿的参数,大约是 Grok-1 的1/3。
  • 模型一次性激活 360 亿个参数(这几乎是模型参数总数的1/4!),大约是 Llama-2 的一半,也就是说速度是翻倍的。
  • 部署运行需要的显存大约是 264G ,大约是 Grok-1 的一半,对硬件需求大大降低了。

再看这张图:

简单来说就是 DBRX 在语言理解、编程和数学方面的表现都已经超越了已有的开源模型。

啥概念?用的参数比你们少,硬件需求比你们低,但是我速度更快,性能还更好!

更多的数据比较可以在 Databricks 发布的 Introducing 中看到。

链接:

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

一切的一切都在说明,除了那些未开源的 LLM 模型(这里不点名 OpenAI和谷歌),DBRX 似乎真的遥遥领先了。至于它会在行业内掀起怎样的风浪,且让我们拭目以待吧。

最后,对这个项目的介绍,用一句 Hugging Face 工程师对 DBRX 的评论结束:

太狂野了!!!

项目地址:

https://github.com/databricks/dbrx

二、AniPortrait

腾讯游戏团队开发的由音频驱动的人像动画合成工具。

通过这个有趣的项目,你能看到:

  • 唱着《Rap God》的蔡徐坤

  • 阻止你说脏话的李云龙

  • 亲切的张亮

让我们一起看看项目的框架:

首先,提取音频中的头部姿势和面部信息,进行投影,生成目标姿势图像。然后通过扩散模型生成完整的视频。

项目包括了三种可采取的生成方法:

  1. 面部重塑(Face reenacment)
  2. 自我驱动(Self driven)
  3. 音频驱动(Audio driven)

这也是一个可以本地部署体验的项目,有一定的硬件要求。而环境的搭建,权重信息,训练方法,作者团队都在主页给出了详细的说明。

顺提一句,这玩意对标的应该是阿里家的 EMO,也可以期待一手=下两个项目接下来的发展。

项目地址:

https://github.com/Zejun-Yang/AniPortrait

三、FRESCO

基于 Stable Diffusion 的零成本视频转绘工具。SD 也算是我们的老朋友了。

我们给出一个简单的视频。FRESCO 可以帮我们把它转绘成不同风格下的视频,就像是给视频打上了不同的滤镜。

比如,蒙娜丽莎式的。

类似这样的 gif 图和完整的视频,在项目主页上还展示了很多。

FRESCO 有几个鲜明特点:

  • 使用帧内和帧间约束,比单独使用光流具有更好的一致性和覆盖率。
  • 无需对模型进行训练,无需进行微调。
  • 兼容现有的模型,可以灵活使用,实现更好的效果。

我们可以看看 FRESCO 的 GUI 界面,还是很简洁的。给出要求的主题提示词句,FRESCO 就能生成新的转绘视频。

另外, FRESCO 提供了很丰富的高级选项,包含很多可调的参数,可以对视频转绘进行更精细的调控。

目前项目存在的缺点是,显存占用过高,即使你的硬件配置已经很不错了,但仍无法很好的生成高分辨率的视频。另外,FRESCO 只能使用 Diffusion 格式的模型。

项目地址:

https://github.com/williamyang1991/fresco

四、VoiceCraft

零样本语音编辑和文本到语音的训练。也就是一个克隆或编辑声音的模型。

VoiceCraft 是一种令牌填充神经编解码器语言模型,它在语音编辑和对有声读物、互联网视频和播客等在线数据的零样本文本到语音(TTS)方面都实现了最先进的性能。

而这个模型最突出的点就是,快!要克隆或编辑一个新的声音, VoiceCraft 只需要几秒钟的时间即可完成。

我们来试听一段 VoiceCraft 生成的音频示例:

But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.

作者团队已经将一整个模型开源,而模型的训练需要使用者自己完成。不过作者团队给出了完整的训练方法。

训练方法

截止目前,项目仍然在不断更新,项目主页的 TODO 项目仍不断减少。作者团队称,项目将会在 24 年 3 月底解决所有亟待完善的问题。

项目地址:

https://github.com/jasonppy/VoiceCraft

感兴趣的小伙伴可以持续关注项目更新。

好了,今天的内容就是这么多,我们下期见!

·················END·················

推荐阅读

•   3个令人兴奋的AI项目,已开源!•   AI视频一键启动包说明•   离谱,北邮211本科不符合华为OD要求

微信扫码关注该文公众号作者

来源:Jack Cui

相关新闻

3个令人兴奋的AI项目,已开源!又火一个惊艳的AI项目,已开源!4个令人惊艳的开源项目,诞生了!一个火爆外网的国产AI项目,已开源!微信聊天记录导出的开源项目,火了!这个「AI 写真」开源项目火了! GitHub 一周暴涨四千星,Yann LeCun 亲自转发又一个爆火的AI项目,逼真到恐怖的Flux!【保姆级硬核教程】又火一个惊艳的开源项目,诞生了!开源AI掌机爆火,首批预售2.5小时抢光!AI进化太快了,马斯克开源Grok-1,爆火!Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用被问爆了!后悔没早入:北美中小学生在用的4个超火阅读APP首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试媲美GPT-4的开源模型泄露!Mistral老板刚刚证实:正式版本还会更强86个开源的Mamba魔改!性能直逼 GPT-4!最强大的免费开源模型出世 | 极客时间讯飞星火V3.5整体接近GPT-4 Turbo!首个13B开源大模型发布,深度适配国产算力史上最强!全球首个“开源GPT-4”出世!卷土重来!这个10年前爆火的茶,又开连锁专门店了开源大模型火了!(附99个大模型微调模型/数据/工具)!实操了4个 AI 大模型项目落地,我又行了!| 极客时间
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。