国际科技财经移民娱乐民生时事体育

Bendi新闻

Sam Altman点赞！GPT-4o的幕后AI大佬是...

8月前

▲ 点击订阅，抓住风口

OpenAI春季发布会，发布了最新的AI大模型——GPT-4o，看了发布视频的人都惊呼，科幻电影《Her》中和人谈恋爱的AI助理已经来了。

GPT-4o（“o”代表“全能”）的技术进步和产业价值，科技特训营周四直播已经和大家详细解读。

显而易见的改变是人机交互的再度进步，GPT-4o能够实时处理文本、音频、图像和视频的任意组合，根据官方公布的数据音频对话响应速度仅需232毫秒，达到了我们普通人交流的水平。

OpenAI展示了GPT-4o的多种功能，包括实时翻译、编程助手、AI导师、友好伴侣、诗人和歌手等，迅速成为热门话题。

不少媒体也开始挖掘GPT-4o开发者的信息，想不到OpenAI CEO Sam Altman在X（原Twitter）上大方公布了这一切的幕后功臣。

Altman转发了一位印度工程师Prafulla Dhariwal的分享，并评论：“如果没有Prafulla Dhariwal的远见、才华、信念和坚持，GPT-4o就不会诞生。他和其他许多人的努力，促成了这场计算机使用方式的革命。”

GPT-4o的新闻相信大家已经看得差不多了，详细解读王煜全老师已经在科技特训营分享。

今天我们为大家整理详细资料，介绍一下这位GPT-4o的幕后功臣。

印度到美国的超级学霸

Dhariwal出生于印度浦那，从零星的资料可以了解到他的学霸程度。

2009年获得印度政府颁发的国家人才搜索奖学金，并在国际天文学奥林匹克竞赛中获得金牌。2012年和2013年，Dhariwal在国际数学奥林匹克竞赛和国际物理奥林匹克竞赛中连获金牌。

Dhariwal在一则采访中表示：“在十二年级时（相当于高三阶段），我全年都在学习，因为我想在IIT学习。但现在，我非常高兴能够被MIT录取。”

完成高中学业后，Dhariwal获得了入学麻省理工学院（MIT）的机会，攻读计算机科学和数学专业，从2013年到2017年期间，Dhariwal在MIT完成了本科教育，并获得全额奖学金。

职业生涯与成就

Dhariwal于2016年5月以研究实习生身份加入OpenAI，2017年正式成为研究科学家，专注于生成模型和无监督学习。

2017年OpenAI刚成立一年，只是笼罩在马斯克光环下的初创机构，现在回头看Dhariwal早就站在了AI变革的最前沿。无论是眼光还是运气，他在OpenAI与牛人为伍，最终也成绩斐然。

Dhariwal是GPT-3、DALL-E 2、Jukebox和Glow的共同创造者之一。其中，Jukebox项目是一款生成音乐的模型，可以创作出高保真且多样化的歌曲；Glow模型则能够快速生成高分辨率图像。

当然，最值得称道的还是他参与提出了“Scaling Law”，这个AI领域反复提及，大有成为AI摩尔定律的新规律。

"scaling law"简单说就是AI模型的性能随着模型规模变大而变大（这里的规模指参数数量、训练数据量、计算资源）。

正是这个法则让无数开发者和企业愿意砸大钱训练AI，因为它让大家认识到“充值就会变强”，可以说就是AI界的信仰之源。

除了这种原理上的发现，Dhariwal还参与了扩散模型的开发，这条技术路线在图像合成方面超过了生成对抗网络（GAN），成就了今天各种AI图片企业。

除此之外，他的技术贡献还有开发了防止自编码器问题的变分有损自编码器（Variational Lossy Auto-encoder），以及强化学习中的近端策略优化（PPO）和应用于形式化定理证明的GamePad...在AI领域广泛参与了技术研发。

Omni团队的诞生

作为Omni团队的负责人，Dhariwal在GPT-4o的开发中扮演了关键角色。他在X上发文说：“GPT-4o（o代表‘全能’）是Omni团队的首款原生全多模态模型。这次发布是全组织的巨大努力，但我想特别感谢一些出色的团队成员，正是他们使这个神奇的模型成为可能。”

这条动态得到了OpenAI CEO Sam Altman和联合创始人Greg Brockman的转发和称赞。

另一位联合创始人Brockman也赞扬了Dhariwal是让团队坚信多模态能力的人，他花了18个月时间，与OpenAI其他团队合作，才促使GPT-4o诞生。

GPT-4o其他团队成员及贡献清单

James ：负责训练内容，涵盖图像、音频、数据集成和后期培训。

Jamie Kiros：在开发模型的视觉感知方面发挥了关键作用。

Rown：专注于视频处理技术，使模型对视频输入的交互自然流畅。

Alex Conneau：提出并实施了 HER 愿景的基础。

Gabeeegoooh 和 Ishaan：负责扩展规律的工作，确保多模态集成后的卓越表现。

Heewoo Jun 和 Jing Li：确保模型的图像和 3D 生成技术出色。

Casey Chu：最早加入项目，贡献了基础工作。

Mark Chen：在项目中提供了持续的精神支持。

Michelle Kim：负责人才招聘，确保团队拥有顶尖的专家。

其他贡献者：Jhyuxm、Huiwen Chang、Ajabri、Mcleavey、Yukuwu 等，他们在多模态集成和相关工作中发挥了重要作用。

根据Dhariwal的说法，OpenAI早就有意打造这样一个Omni全能大模型。然而一年多之前，经过多次尝试，没有一次能让最大的GPT成功地完成多模态运行。幸运的是，团队成员齐心协力，用出色的能力攻克了种种难题，使GPT-4o成为可能。

为什么全模态端到端这么难，我们也做了些研究，除开训练AI时要将声音、视频、语言等数据统一到一起，更困难的是如何让AI在生成内容时使用同一个模型解决问题。

从AI开发者，各种AI论文中我们也看到这个问题的困难之处，有的开发人员感叹“自己确实想象不到生成部分如何将不同模态统一到一起”。

当然，前沿问题不是只有OpenAI一家在研究，这周四的直播中王煜全老师在特训营直播中分享了最新的研究成果，欢迎大家观看直播回放了解。

随着OpenAI首席科学家Ilya Sutskever官宣离职，不少人都担心这家公司能否继续抱住AI领头羊的位置。

如今这个团队还在不断有人站出来引领风潮，自然打消了不少人疑虑，不过GPT-4o到底有多少领先性，不能光从技术的角度来看，还要站在产业格局的角度进行分析。

更多深度分析欢迎加入前哨科技特训营了解，我们也会继续关注AI产业的前沿洞见，分析AI多模态的下一个目的在哪！

【前哨科技特训营第四季前瞻】

1. 前哨科技特训营直播课程第四季（2023年）共50讲+，除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容，实际平均时长为2小时。
3. 每周四晚八点准时直播，会员可无限次观看回放。
4. 新入会员，可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】，最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】，链接科技/产业一线人士，打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会，接触科技/产业专家，获取最新、最前沿的趋势洞察，人脉链接
8. 本课程为虚拟内容服务，年费订阅服务制。一经订阅概不退款，线下活动需另行支付差旅成本，请您理解。

【课程咨询】

请加“创新地图助手”：

微信：innovationmapSM

微信扫码关注该文公众号作者

来源：全球风口

Sam Altman点赞！GPT-4o的幕后AI大佬是...

相关新闻