Sam Altman点赞!GPT-4o的幕后AI大佬是...
OpenAI春季发布会,发布了最新的AI大模型——GPT-4o,看了发布视频的人都惊呼,科幻电影《Her》中和人谈恋爱的AI助理已经来了。
GPT-4o(“o”代表“全能”)的技术进步和产业价值,科技特训营周四直播已经和大家详细解读。
显而易见的改变是人机交互的再度进步,GPT-4o能够实时处理文本、音频、图像和视频的任意组合,根据官方公布的数据音频对话响应速度仅需232毫秒,达到了我们普通人交流的水平。
OpenAI展示了GPT-4o的多种功能,包括实时翻译、编程助手、AI导师、友好伴侣、诗人和歌手等,迅速成为热门话题。
不少媒体也开始挖掘GPT-4o开发者的信息,想不到OpenAI CEO Sam Altman在X(原Twitter)上大方公布了这一切的幕后功臣。
Altman转发了一位印度工程师Prafulla Dhariwal的分享,并评论:“如果没有Prafulla Dhariwal的远见、才华、信念和坚持,GPT-4o就不会诞生。他和其他许多人的努力,促成了这场计算机使用方式的革命。”
GPT-4o的新闻相信大家已经看得差不多了,详细解读王煜全老师已经在科技特训营分享。
今天我们为大家整理详细资料,介绍一下这位GPT-4o的幕后功臣。
印度到美国的超级学霸
Dhariwal出生于印度浦那,从零星的资料可以了解到他的学霸程度。
2009年获得印度政府颁发的国家人才搜索奖学金,并在国际天文学奥林匹克竞赛中获得金牌。2012年和2013年,Dhariwal在国际数学奥林匹克竞赛和国际物理奥林匹克竞赛中连获金牌。
Dhariwal在一则采访中表示:“在十二年级时(相当于高三阶段),我全年都在学习,因为我想在IIT学习。但现在,我非常高兴能够被MIT录取。”
完成高中学业后,Dhariwal获得了入学麻省理工学院(MIT)的机会,攻读计算机科学和数学专业,从2013年到2017年期间,Dhariwal在MIT完成了本科教育,并获得全额奖学金。
职业生涯与成就
Dhariwal于2016年5月以研究实习生身份加入OpenAI,2017年正式成为研究科学家,专注于生成模型和无监督学习。
2017年OpenAI刚成立一年,只是笼罩在马斯克光环下的初创机构,现在回头看Dhariwal早就站在了AI变革的最前沿。无论是眼光还是运气,他在OpenAI与牛人为伍,最终也成绩斐然。
Dhariwal是GPT-3、DALL-E 2、Jukebox和Glow的共同创造者之一。其中,Jukebox项目是一款生成音乐的模型,可以创作出高保真且多样化的歌曲;Glow模型则能够快速生成高分辨率图像。
当然,最值得称道的还是他参与提出了“Scaling Law”,这个AI领域反复提及,大有成为AI摩尔定律的新规律。
"scaling law"简单说就是AI模型的性能随着模型规模变大而变大(这里的规模指参数数量、训练数据量、计算资源)。
正是这个法则让无数开发者和企业愿意砸大钱训练AI,因为它让大家认识到“充值就会变强”,可以说就是AI界的信仰之源。
除了这种原理上的发现,Dhariwal还参与了扩散模型的开发,这条技术路线在图像合成方面超过了生成对抗网络(GAN),成就了今天各种AI图片企业。
除此之外,他的技术贡献还有开发了防止自编码器问题的变分有损自编码器(Variational Lossy Auto-encoder),以及强化学习中的近端策略优化(PPO)和应用于形式化定理证明的GamePad...在AI领域广泛参与了技术研发。
Omni团队的诞生
作为Omni团队的负责人,Dhariwal在GPT-4o的开发中扮演了关键角色。他在X上发文说:“GPT-4o(o代表‘全能’)是Omni团队的首款原生全多模态模型。这次发布是全组织的巨大努力,但我想特别感谢一些出色的团队成员,正是他们使这个神奇的模型成为可能。”
这条动态得到了OpenAI CEO Sam Altman和联合创始人Greg Brockman的转发和称赞。
另一位联合创始人Brockman也赞扬了Dhariwal是让团队坚信多模态能力的人,他花了18个月时间,与OpenAI其他团队合作,才促使GPT-4o诞生。
GPT-4o其他团队成员及贡献清单
James :负责训练内容,涵盖图像、音频、数据集成和后期培训。
Jamie Kiros:在开发模型的视觉感知方面发挥了关键作用。
Rown:专注于视频处理技术,使模型对视频输入的交互自然流畅。
Alex Conneau:提出并实施了 HER 愿景的基础。
Gabeeegoooh 和 Ishaan:负责扩展规律的工作,确保多模态集成后的卓越表现。
Heewoo Jun 和 Jing Li:确保模型的图像和 3D 生成技术出色。
Casey Chu:最早加入项目,贡献了基础工作。
Mark Chen:在项目中提供了持续的精神支持。
Michelle Kim:负责人才招聘,确保团队拥有顶尖的专家。
其他贡献者:Jhyuxm、Huiwen Chang、Ajabri、Mcleavey、Yukuwu 等,他们在多模态集成和相关工作中发挥了重要作用。
根据Dhariwal的说法,OpenAI早就有意打造这样一个Omni全能大模型。然而一年多之前,经过多次尝试,没有一次能让最大的GPT成功地完成多模态运行。幸运的是,团队成员齐心协力,用出色的能力攻克了种种难题,使GPT-4o成为可能。
为什么全模态端到端这么难,我们也做了些研究,除开训练AI时要将声音、视频、语言等数据统一到一起,更困难的是如何让AI在生成内容时使用同一个模型解决问题。
从AI开发者,各种AI论文中我们也看到这个问题的困难之处,有的开发人员感叹“自己确实想象不到生成部分如何将不同模态统一到一起”。
当然,前沿问题不是只有OpenAI一家在研究,这周四的直播中王煜全老师在特训营直播中分享了最新的研究成果,欢迎大家观看直播回放了解。
随着OpenAI首席科学家Ilya Sutskever官宣离职,不少人都担心这家公司能否继续抱住AI领头羊的位置。
如今这个团队还在不断有人站出来引领风潮,自然打消了不少人疑虑,不过GPT-4o到底有多少领先性,不能光从技术的角度来看,还要站在产业格局的角度进行分析。
更多深度分析欢迎加入前哨科技特训营了解,我们也会继续关注AI产业的前沿洞见,分析AI多模态的下一个目的在哪!
【前哨科技特训营第四季前瞻】
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
1. 前哨科技特训营直播课程第四季(2023年)共50讲+,除此之外还有5节加餐+公开课。
2. 每讲承诺为1小时视频内容,实际平均时长为2小时。
3. 每周四晚八点准时直播,会员可无限次观看回放。
4. 新入会员,可以无限次回看之前所有视频课程。
5. 成为会员即可使用【AI王煜全】,最新AI大模型开发的专属科技分析助手
6. 每周组织【前哨·创新启发局】,链接科技/产业一线人士,打开技术/应用前沿视野
7. 优先获取全球科技产业一线游学、访问机会,接触科技/产业专家,获取最新、最前沿的趋势洞察,人脉链接
8. 本课程为虚拟内容服务,年费订阅服务制。一经订阅概不退款,线下活动需另行支付差旅成本,请您理解。
微信扫码关注该文公众号作者