Bendi新闻
>
Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?

Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?


就在大约一个月之前,人工智能界又一次被OpenAI搅得天翻地覆。


这次并不是因为Sam Altman或者别的领导层又又又在闹什么宫斗大戏,而是2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora。


图片来源于OpenAI


Sora的诞生,别说是人工智能界,连同一些与科技联系紧密的影视圈都彻夜无眠。不仅现阶段文生视频AI的技术极限得到了大幅刷新,生成式AI在视频领域的地位也将要被人刮目相待。


Sora确实是太可怕了。


只要给出一段文字,Sora就能生成出长达60秒的精美逼真的视频。无论是多镜头切换还是一镜到底都可以轻松驾驭,同时还能保持对物理世界的合理认知和角色视觉风格的一致性。


无论是女子走在繁华的东京街头:


Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...


还是创造出在咖啡杯里乘风破浪的海盗船:


Promt:Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.


从跟随视角拍摄越野车行驶在悬崖峭壁:


Promt节选:: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope...


到模拟drone广角拍摄的海边城堡:


Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...


除了模拟相机POV或者运镜变换的能力超群,Sora生成微距拍摄的人类或是动物细节也毫无瑕疵,充分体现了模型对生物结构的正确理解:


Promt节选: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic


Promt节选:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.



所以为什么Sora这么强大?


从Sora的技术文档中可以发现,Sora是一个diffusion model,它是利用深度学习技术来逐步从一种无序状态(如静态噪声)转变为有序状态(如清晰图像或视频)的一种技术。


Sora基于DALL·E和GPT模型的先前研究成果,采用了DALL·E 3中的recaptioning技术,这涉及为视觉训练数据生成高度描述性的文字。因此,该模型能够更忠实地遵循用户在生成视频中的文本指令。并且通过这些技术细节,Sora扩展了图像和视频生成模型的能力,使其能够更准确、更创造性地响应用户的文本指令,生成符合预期的高质量视频内容。



当然,目前的Sora绝非完美无缺,目前Sora还是会存在生成的视频不合理的问题,主要是由于对世界缺乏足够的物理认知而闹出笑话。


比如说生成了倒着在跑步机上运动的男人,并且跑步姿势不符合人体规律。


Promt节选:Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.


或者是考古学家从沙子中挖出一把诡异悬浮的塑料椅。


Promt节选:Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.


OpenAI团队表示Sora目前正在接受红队测试,用以评估关键领域的潜在危害或者风险,同时也给视觉艺术家、设计师和电影制作人提供了少数访问权限以便获得他们的反馈,用以继续推进模型的研发。并且团队还在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容等。


OpenAI称,自己提前分享关于Sora的研究进展,旨在开始和OpenAI以外的人进行合作并且获取他们的反馈,同时也让公众了解即将问世的AI将会有多么强大的能力。


从官方发布的视频中呈现的冰山一角,令人难以想象具备了完备功能的Sora将会取代多少科技或者影视行业的工作。


Sora已经超越了一个文字生成视频的模型,而是已经体现出了一种”世界模型(World Simulator)“的雏形——通过有限的context,对真实的物理世界进行建模和理解,让模型在生成内容的时候已经有了一些对世界的”基础“认知。这些认知有的时候不会被明确表达出来,但是却是AI视频生成更加流畅且符合逻辑的基石。并且世界模型的概念一旦稳固,将有可能大幅度降低视频模型的训练成本。


仿佛从此以后,现实和虚幻的界限真的开始模糊了。


你能分辨这是实景拍摄还是AI生成吗?




在这一石激起千层浪的此时此刻,不禁有人想起来自从去年OpenAI宫斗事件以Sam回归落下帷幕以后,就陷入了沉默的Ilya Sutskever。OpenAI的首席科学家。



熟知OpenAI和AI界从业者都知道Ilya在行业内不可撼动的地位。


当时在OpenAI的领导层大宫斗中,就是以Ilya为首对Sam过于激进的发展理念产生了质疑。Ilya认为Sam没有考虑到如此快速推进AI发展所带来的潜在危险。更有传闻说他在模型的训练过程中”看见了什么“,并且担心AI将来会发展不受控制的境地,伤害人类的利益。


这就是他当时联合董事会一起罢免了Sam的原因。因为他觉得“Sam离开是让OpenAI不偏离初衷的最好方式。”


埃隆马斯克说:Ilya是个十分有道德感的人,他一定看到了什么。


然而OpenAI接下来一系列的戏剧性反应,包括700名以上员工请辞等等让他最终还是妥协了,Sam重回CEO的职位。


即便Sam在重新回到职位上之后仍旧表达了对Ilya的尊重以及”零恶意“,并希望二人能够继续合作下去。Ilya也得以继续留在OpenAI公司,但是他在那以后就仿佛隐身了一样,在近期OpenAI连续发布新产品的喧嚣欢腾中毫无踪迹。


细心的人发现,OpenAI在官网上发布的关于Sora的信息中,无论是这个项目的研发团队,还是在最后的致谢名单中,Ilya的名字从未出现过。



一同沉寂的,还有他那2023年12月以后就再也没有更新的X账号。


2023年12月14日,OpenAI 发布了超级对齐项目的最新研究论文:使用 GPT-2 级别的小模型来监督 GPT-4 级别的大模型。同时,OpenAI 宣布与 Eric Schmidt 合作,启动了一项 1000 万美元的资助计划支持技术研究,以确保超人类人工智能系统的一致性和安全性。


这就是Ilya上一次X账号更新的全部内容。


但或许也是因为Ilya的态度,让一些人在看到Sora或是将来更新版本的GPT模型的发布时,不会盲目跟风狂欢,而是陷入更深的思考。


Ilya究竟看到了什么?


如果AI有一天变得非常、非常强大,人类将再也无法理解他们,到了那个时候,人类该何去何从?


我们该怎样保证那些机器对人类是不具有恶意的,而是像父母关心孩子那样,像人类此时此刻推进着AI的进步那样,帮助人类进步呢?


在人工智能通过海量数据学习人类的同时,人类也应该不断学习,加强自己对人工智能乃至当今科技的理解,才能最大程度的预防潜在的“失控”场面。


Techie在3月31号周日为大家带来北美数据岗最新内推资源和面经分享,直播现场接收简历内推。


这也是和北美科技业内人士畅聊人工智能、深度学习、科技求职等火热话题的好机会。


3.31 美西 5 PM PST / 美东 8 PM EST 

Techie与大家不见不散


Techie的数据科学集训营和编程算法集训营小班课也依旧火热招生中



如有任何问题,欢迎扫描下图二维码,添加课程导师汪淼老师进行进一步咨询。


Techie,有温度的科技职业发展平台。



微信扫码关注该文公众号作者

来源:Techie科技求职

相关新闻

中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?OpenAI甩出AI模型Sora,做视频的我又要失业了……OpenAI宫斗又有后续?联合创始人宣布离职Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事终局之战!OpenAI Sora大佬专访:AI视频模型仍处在GPT-1时代一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了成立不足两年,融资8000 万美元,晋升独角兽行列,这款 AI 语音克隆应用到底有多强?状告金主?能源巨头上演“宫斗”大戏今天刷屏的 OpenAI Sora 模型,是怎么实现 1分钟一镜到底的?揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?AI 与大模型如何助力金融研发效能最大化?开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?97万人争712个职位,愁倒谷歌精英:世界最难的印度“国考”,到底有多卷?清算逼宫?娃哈哈长公主的“宫斗”大戏,已经很明显了……OpenAI再陷宫斗:理想主义者是如何被击碎的?Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型苹果加紧与OpenAI谈判,在iOS18加入AI功能/小米高管否认雷军被李想锁车里/「中国版Sora」发布直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程?财报解读:云与AI的时代,微软离成为最终赢家还有多远?今日arXiv最热大模型论文:上海AI lab发布MathBench,GPT-4o的数学能力有多强?
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。