Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?
就在大约一个月之前,人工智能界又一次被OpenAI搅得天翻地覆。
这次并不是因为Sam Altman或者别的领导层又又又在闹什么宫斗大戏,而是2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora。
图片来源于OpenAI
Sora的诞生,别说是人工智能界,连同一些与科技联系紧密的影视圈都彻夜无眠。不仅现阶段文生视频AI的技术极限得到了大幅刷新,生成式AI在视频领域的地位也将要被人刮目相待。
Sora确实是太可怕了。
只要给出一段文字,Sora就能生成出长达60秒的精美逼真的视频。无论是多镜头切换还是一镜到底都可以轻松驾驭,同时还能保持对物理世界的合理认知和角色视觉风格的一致性。
无论是女子走在繁华的东京街头:
Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...
还是创造出在咖啡杯里乘风破浪的海盗船:
Promt:Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
从跟随视角拍摄越野车行驶在悬崖峭壁:
Promt节选:: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope...
到模拟drone广角拍摄的海边城堡:
Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...
除了模拟相机POV或者运镜变换的能力超群,Sora生成微距拍摄的人类或是动物细节也毫无瑕疵,充分体现了模型对生物结构的正确理解:
Promt节选: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic
Promt节选:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
所以为什么Sora这么强大?
从Sora的技术文档中可以发现,Sora是一个diffusion model,它是利用深度学习技术来逐步从一种无序状态(如静态噪声)转变为有序状态(如清晰图像或视频)的一种技术。
Sora基于DALL·E和GPT模型的先前研究成果,采用了DALL·E 3中的recaptioning技术,这涉及为视觉训练数据生成高度描述性的文字。因此,该模型能够更忠实地遵循用户在生成视频中的文本指令。并且通过这些技术细节,Sora扩展了图像和视频生成模型的能力,使其能够更准确、更创造性地响应用户的文本指令,生成符合预期的高质量视频内容。
当然,目前的Sora绝非完美无缺,目前Sora还是会存在生成的视频不合理的问题,主要是由于对世界缺乏足够的物理认知而闹出笑话。
比如说生成了倒着在跑步机上运动的男人,并且跑步姿势不符合人体规律。
Promt节选:Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.
或者是考古学家从沙子中挖出一把诡异悬浮的塑料椅。
Promt节选:Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.
OpenAI团队表示Sora目前正在接受红队测试,用以评估关键领域的潜在危害或者风险,同时也给视觉艺术家、设计师和电影制作人提供了少数访问权限以便获得他们的反馈,用以继续推进模型的研发。并且团队还在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容等。
OpenAI称,自己提前分享关于Sora的研究进展,旨在开始和OpenAI以外的人进行合作并且获取他们的反馈,同时也让公众了解即将问世的AI将会有多么强大的能力。
从官方发布的视频中呈现的冰山一角,令人难以想象具备了完备功能的Sora将会取代多少科技或者影视行业的工作。
Sora已经超越了一个文字生成视频的模型,而是已经体现出了一种”世界模型(World Simulator)“的雏形——通过有限的context,对真实的物理世界进行建模和理解,让模型在生成内容的时候已经有了一些对世界的”基础“认知。这些认知有的时候不会被明确表达出来,但是却是AI视频生成更加流畅且符合逻辑的基石。并且世界模型的概念一旦稳固,将有可能大幅度降低视频模型的训练成本。
仿佛从此以后,现实和虚幻的界限真的开始模糊了。
你能分辨这是实景拍摄还是AI生成吗?
在这一石激起千层浪的此时此刻,不禁有人想起来自从去年OpenAI宫斗事件以Sam回归落下帷幕以后,就陷入了沉默的Ilya Sutskever。OpenAI的首席科学家。
熟知OpenAI和AI界从业者都知道Ilya在行业内不可撼动的地位。
当时在OpenAI的领导层大宫斗中,就是以Ilya为首对Sam过于激进的发展理念产生了质疑。Ilya认为Sam没有考虑到如此快速推进AI发展所带来的潜在危险。更有传闻说他在模型的训练过程中”看见了什么“,并且担心AI将来会发展不受控制的境地,伤害人类的利益。
这就是他当时联合董事会一起罢免了Sam的原因。因为他觉得“Sam离开是让OpenAI不偏离初衷的最好方式。”
埃隆马斯克说:Ilya是个十分有道德感的人,他一定看到了什么。
然而OpenAI接下来一系列的戏剧性反应,包括700名以上员工请辞等等让他最终还是妥协了,Sam重回CEO的职位。
即便Sam在重新回到职位上之后仍旧表达了对Ilya的尊重以及”零恶意“,并希望二人能够继续合作下去。Ilya也得以继续留在OpenAI公司,但是他在那以后就仿佛隐身了一样,在近期OpenAI连续发布新产品的喧嚣欢腾中毫无踪迹。
细心的人发现,OpenAI在官网上发布的关于Sora的信息中,无论是这个项目的研发团队,还是在最后的致谢名单中,Ilya的名字从未出现过。
一同沉寂的,还有他那2023年12月以后就再也没有更新的X账号。
2023年12月14日,OpenAI 发布了超级对齐项目的最新研究论文:使用 GPT-2 级别的小模型来监督 GPT-4 级别的大模型。同时,OpenAI 宣布与 Eric Schmidt 合作,启动了一项 1000 万美元的资助计划支持技术研究,以确保超人类人工智能系统的一致性和安全性。
这就是Ilya上一次X账号更新的全部内容。
但或许也是因为Ilya的态度,让一些人在看到Sora或是将来更新版本的GPT模型的发布时,不会盲目跟风狂欢,而是陷入更深的思考。
Ilya究竟看到了什么?
如果AI有一天变得非常、非常强大,人类将再也无法理解他们,到了那个时候,人类该何去何从?
我们该怎样保证那些机器对人类是不具有恶意的,而是像父母关心孩子那样,像人类此时此刻推进着AI的进步那样,帮助人类进步呢?
在人工智能通过海量数据学习人类的同时,人类也应该不断学习,加强自己对人工智能乃至当今科技的理解,才能最大程度的预防潜在的“失控”场面。
Techie在3月31号周日为大家带来北美数据岗最新内推资源和面经分享,直播现场接收简历内推。
这也是和北美科技业内人士畅聊人工智能、深度学习、科技求职等火热话题的好机会。
3.31 美西 5 PM PST / 美东 8 PM EST
Techie与大家不见不散
Techie的数据科学集训营和编程算法集训营小班课也依旧火热招生中
如有任何问题,欢迎扫描下图二维码,添加课程导师汪淼老师进行进一步咨询。
Techie,有温度的科技职业发展平台。
微信扫码关注该文公众号作者