在创作圈,“灵感”和“抽卡”第一次被绑定了——AI作品要跑出来,两个条件必不可少:一是创作人的个人能力,二是要抽足够多的卡
安静的工作室内,隐约传来显卡的“嗡嗡”声。桌上的台式机正在跑AI模型生成的视频,进度条速度很快。显卡跑得越快,散热风扇转动也越快。李佳伟是AI生成视频行业的创业者。他有个小怪癖,不赶项目时,会慢下来仔细享受“嗡嗡”声。兴致来的时候,会打开电脑任务管理器,查看显卡实时利用率。当利用率跑上90%,李佳伟会有一种自信的爽感,“AI应用我总能跑。”爽感来自他的显卡。李佳伟创办的Wonder AI与北大文化产业研究院联合举办了多期AIGC公益课程。在课程社群中,他经常看到同学们的其他显卡部署AI模型时被报错。还有一些显卡由于性能低、显存有限,模型推理时会“爆显存”。李佳伟2023年升级了英伟达RTX高配显卡。他在课上也给学员直接推荐英伟达RTX系列显卡,因为后者可以快速在本地生成大量图片、视频。快,是AI创作这个新兴领域的发展基调。2023年下半年以来,几乎每半个月都会出现一篇给行业带来重大影响的技术论文。AI视频生成工具,更是以周为单位更新迭代。AI创作的应用插件,每天都在大量涌现。AI创作人要快速学习、应用最新的生产力工具,还要在这个过程中满足商业客户需求。开源图片、视频模型的参数规模越来越大,对性能要求也越来越高。因此,一线AI创作人纷纷选择了能力范围内最高的设备配置。英伟达GeForce RTX 40系列高端显卡成了很多AI创作人、艺术家在本地PC创作的生产力工具。近一年多来,英伟达为人熟知的产品是A100、H100等AI芯片。它们部署在数据中心,被用于大模型训练。亚马逊、微软等云计算公司争相抢购A100、H100。各个公司都绕不开英伟达的先进AI芯片。在云服务器智能芯片领域,英伟达难以被替代。富国银行今年1月数据显示,英伟达在全球数据中心AI芯片市场拥有98%的市场份额。在此之前,英伟达更为人熟知的产品是消费级RTX 40系列GPU(图形处理器)。GPU被俗称为“显卡”。英伟达的显卡(游戏玩家称之为“N卡”)以高性能著称,过去常被用于游戏。因为大型3A游戏要处理复杂的3D图形场景和特效。国际市场调研机构Jon Peddie Research数据显示,2023年四季度独立显卡市场英伟达占据了全球80%的份额。英伟达2024财年(即2023年1月-2024年1月)报告披露,游戏GPU、创意工作GPU两大市场收入120亿美元,同比增长13.1%。2023年末以来,生成式AI在PC(个人电脑)加速落地。联想、惠普、戴尔等厂商纷纷推出AI PC。AI PC的定义是,配备AI芯片,可在本地处理AI工作的电脑。未来,每台PC都要配置运行 AI应用的专用芯片。英伟达在这个市场拥有得天独厚的优势。在AI创作领域尤为明显。英伟达是创意工作的常见选择。2022年这个领域逐渐兴起,AI创作人生成图片、视频的常见工作模式是,在PC上装英伟达GeForce RTX系列显卡,部署AI生成模型。AI创作人们希望用高性能显卡,在“想要、看到、得到”的AI创作过程中获得流畅创作体验。他们的一致观点是,在创意工作中,英伟达同样难以被替代。数字艺术家“土豆人Tudou_Man”在AI创作圈颇有名气。2023年4月,他把苹果MacBook Pro换成了Windows系统的台式电脑,并入手了第一块英伟达RTX 4090显卡。“土豆人Tudou_Man”之前使用Midjourney(一个AI图片生成平台)在云端生图。Midjourney用户协议之一是,允许收集用户推理信息。但是,文生图提示词又是创作人生成特色图片的“秘方”之一。“土豆人Tudou_Man”担心云端工具在数据安全和稳定性的隐患,于是决定将一部分工作转移到本地。在他看来,本地工作的生成环境更稳定和安全,不容易出现意外。“如果云端生图网络崩溃或者账号屏蔽,会对我的工作造成重大打击”。“土豆人Tudou_Man”现在使用搭载RTX 4090显卡的电脑,在本地部署Stable Diffusion。这样无需联网就能高响应、低延迟地快速生成图片。Stable Diffusion是AI初创公司Stability AI开源的图像生成模型。和只能在云上使用的Midjourney、DALL-E等模型不同,Stable Diffusion允许用户在本地通过消费级显卡跑模型,它能提供更灵活、可定制的生图方案。目前,它是AI创作人群体中的主流创作工具之一。2024年春晚舞台,歌手任素汐演唱《枕着光的她》的现场伴奏视频中,出现了两个白瓷人的舞蹈。这是实拍双人舞用AI模型转绘后的结果。它背后的工作流就用到了Stable Diffusion及其开源技术。Simon阿文是这个AI视频的创作人之一。他解释,“Stable Diffusion生态中大量插件,默认使用显卡都是英伟达RTX GPU。”2022年8月Stable Diffusion开源后,两个多月就收获了1000万用户。Stability AI官网显示,Stable Diffusion社区已经超过30万开发者、研究人员和创作人。Simon阿文解释,用的人多了,英伟达RTX 40系高端显卡逐渐成了创作人、开发者事实上的标准选择。Stable Diffusion社区的开发者普遍在用英伟达RTX显卡做测试、开发应用。Stable Diffusion社区的开发者也默认,AI创作人们在用英伟达RTX 40系列高端显卡。如果AI创作人的显卡和默认部署环境不适配,会导致启动Stable Diffusion时,无法“开箱即用”。接下来的麻烦是,创作人要在GitHub(全球最大的代码托管平台)等平台寻找专业开发者给出解决方案。这会带来一道无形的门槛。出现这种情况,原因在于它能直接满足创作人生成速度快、生成质量高的需求。生成内容速度快且质量高,给AI创作人提供情绪价值。AI生成图片也被称为“抽卡”。它必须通过大量生成,再以较低的概率获得目标图片。因此,如果抽卡速度太慢,创作人就只能在电脑旁干等着。这会是一段百无聊赖、焦躁不安的时光。但如果抽卡速度快,创作人能在相同时间获得更多选项。这是个简单的概率学。显卡性能越高,图片生成速度越快,创作人能获得的选择也就越多。这虽然是一种“暴力美学”,但却对AI创作大有裨益。因为创作人将提示词输入模型后,只能等完全生成后才能看到具体效果。为了达到理想效果,创作人需要不断调整提示词,生成成百上千张图片,最后选取最满意的一张。AI艺术家“土豆人Tudou_Man”认为,他的作品之所以比别人质量高,是因为抽了足够多的卡,在此基础上进行专业后期制作。工作时,“土豆人Tudou_Man”用三台搭载英伟达RTX 4090显卡的电脑一起跑图。他会直接把生图的参数按照成片要求设置。比如,把清晰度调到最高,然后优中选优。接着他会使用传统的后期工具,对生成内容进行细致修正,在高频迭代中完成终稿。视频注:AI生成艺术视频“重溯山河系列_1” by 土豆人Tudou_Man英伟达提供的一份测试数据显示,在Stable Diffusion同等限定测试条件下,以不同开发生态的加速器作用模型推理,借助NVIDIA TensorRT 加速的RTX 4090每分钟最快能生成52张图片,其他未搭载英伟达显卡的电脑每分钟只能生成7张图片。英伟达RTX系列显卡能让创作人获得流畅的生图体验和创作产能的大幅提升。因此,创作人愿意为产品的高溢价买单。内容生成速度快、质量高,这是AI创作人对本地PC显卡的主要需求。英伟达用三个能力满足他们——性能强大、生态完善、AI功能丰富。“挤牙膏”是很多用户对芯片厂商的抱怨之一。“挤牙膏”是指芯片厂商为了商业利益缓慢释放芯片性能。这带来的问题是,芯片性能平庸,技术进展有限,缺少重大突破。英伟达则被认为是“刀法精准”——它对历代产品的性能升级拿捏得当,对同一代不同产品的性能区隔也把握精准。“刀法精准”虽然是一句调侃,但背后需要芯片提升足够多的性能。芯片厂商还要吃透芯片性能升级节奏、精准切分市场需求。在追求计算性能的道路上,英伟达有自己的原则。用英伟达创始人黄仁勋自己的话来说——制造特殊的计算机,解决普通计算机无法解决的问题,并把计算速度推到极致。黄仁勋创业早期提出了著名的“黄氏定律”:显示芯片每6个月性能提升1倍,比摩尔定律提速3倍。创业伊始,英伟达就开启了“高速奔跑”模式,以“三团队-两季度”的研发运营模式,每6个月推出一次新产品,领先市场1个-2个研发周期。1999年,英伟达推出全球第一款GPU,GeForce256。它具备3D图形渲染能力,很大程度地推动了3D游戏的发展。这也为复杂视觉效果的PC游戏奠定了基础。随后20多年,英伟达显卡按照“黄氏定律”性能不断提升。
性能从来都不只是硬件决定的——它高度依赖软件生态。因此,英伟达还在改进软件服务,完善游戏生态。这可以让显卡充分发挥游戏性能。英伟达2014年开始推出Game Ready Driver计划——也就是,每一款知名游戏大作推出时,玩家都可以用到早已为其优化过的官方驱动,不用担心硬件和新游戏的匹配问题。
因为,游戏与GPU之间如果通信不畅,都可能导致报错、闪退、崩溃。为了保持游戏流程通畅,英伟达需要针对每款新游戏适配相对应的驱动并进行测试。反过来,众多游戏开发商通过英伟达提供的开发工具,也可以在自己的游戏中集成先进技术,提升游戏画质和可玩性。
硬件、软件、生态融合,这逐渐让英伟达显卡成了游戏玩家的标配。男性游戏玩家中甚至流传着一句玩笑,“男生喜爱英伟达RTX 4090显卡,就像女生喜爱爱马仕限量款皮包。”
无心插柳柳成荫。强大的图形处理性能让它能应对更多复杂的创意工作。此后,英伟达不再被认为只是游戏显卡。即使是消费级别的显卡,也常被用户用于专业领域,比如专业图像处理、流体测试、结构测试等。创作是一个辛苦活,本身就会引发焦虑和压力。等待出图,更是焦躁不安的时刻。咬指甲、挠头发是很多人排解焦虑的方式。高性能,是缩短出图速度简单而直接的方式。Simon阿文说,显卡最好的陪伴就是悄无声息。它要性能足够强、速度够快、不会报错,就不会引发额外的焦虑。受某些管制条例影响,RTX 4090D是目前国内可获得的最高性能消费级桌面端显卡。它由英伟达在2023年12月推出。AI模型分享社区吐司平台测评显示,即使是RTX 4090笔记本电脑 GPU,AI性能也大幅领先集成显卡行业水平。在游戏领域,英伟达积累了硬件、软件、生态融合的经验。这些经验在创意工作、数据中心等领域同样存在。软件生态一直是英伟达难以被替代的原因之一。英伟达为人熟知的软件护城河是CUDA(Compute Unified Device Architecture)。2006年开始,英伟达就推出了CUDA编程开发工具。它可以让开发者快速开发出跑在GPU上的软件。发展至今18年,CUDA在全球有400万开发者。大部分开发者已经熟悉了用CUDA开发跑在芯片上的应用,因此它具有先发优势。CUDA的生态优势延续到了AI创作领域。“让专业的人干专业的事。技术的交给技术,让创作人回归创意本身”,这是很多AI创作人一致的声音。它让创作人可以把时间、精力倾注在创意本身,而非折腾在软件适配、环境测试等无法对创作产生直接帮助的琐事上。一位AI创作人介绍,安装Stable Diffusion等生成工具前,一般要先安装CUDA。因为它和RTX显卡绑定在一起,是跑算法的必要工具。反过来,Stable Diffusion社区开发者,默认AI创作人在用英伟达RTX 显卡。因此,社区开源插件和CUDA软件一般更适配。两者相互作用下,CUDA和Stable Diffusion搭配在一起时,模型推理速度会更快,生成内容质量会更好。英伟达硬件性能、软件生态的搭配,还提供丰富的AI功能。2018年生成式AI尚未流行,英伟达敏锐捕捉到了未来电脑上可能会有大量AI应用任务。因此,其产品策略加速向AI计算转变。GeForce RTX 20系列显卡在此时诞生。GeForce RTX系列显卡上配备了AI加速器 Tensor Core。简单理解,它可以提升模型运行速度,让显卡运行AI应用时效率更高。2023年10月,英伟达还基于CUDA,推出针对端侧模型训练和推理的加速算法TensorRT。这带来一个直接效果——Stable Diffusion有更好的加速质量。火星时代教育是一家数字艺术教育机构,其AI设计教研总监吴大吉评价,其他开源生态的加速算法也能提升Stable Diffusion的推理速度,但往往增速不保质,对图片质量需求高的场景不太适合。TensorRT则可以在加快推理速度的情况下,同时保证图像质量。AI模型分享社区吐司平台测评显示,Stable Diffusion适配TensorRT后,英伟达RTX 40系列显卡每分钟的图片生成速度普遍提升了50%以上。AI性能加速,这对一些创作人至关重要。像英伟达RTX高性价比显卡也可以带来不错的创作体验。这在一定程度也降低了创作人的硬件门槛,让更多人可以加入这个生态。AI生成图片、视频是大模型应用落地最广泛的领域之一。国内开发者、创作人、创业公司普遍在以Stable Diffusion开源生态为基础进行探索。AI创作生态正在变得逐渐繁荣——专业创作人越来越多,微调创作模型也越来越多。在Stable Diffusion开源生态周边,还有一批面向创作人的AI模型分享社区,如中国的吐司(Tensor.Art是吐司的国际版)。吐司创始人沈振宇表示,吐司平台来自全球开发者每天贡献的新增模型数量,已超过知名AI模型分享平台Civitai。目前,吐司平台上有超过16万个模型和150万用户,这个行业的从业者还在持续扩大。吴大吉表示,现在游戏、影视等行业甲方招聘时,同等条件下更倾向具备生成式AI能力的从业者。这会倒逼从业者提升自己的能力。2023年开始,火星时代教育的职业课程推出了大量针对AIGC(生成式AI)的专业课程,每年火星时代教育有万名线下学员毕业走向职场。更多从业者在加入AI创作生态,AI模型创作能力也在日益提升。Stable Diffusion近三年经历了多次重大升级,模型的参数规模、稳定性都在不断提升。Stable Diffusion原始开源版本参数规模只有8亿。后续版本最高参数规模涨到了35亿、66亿、80亿。参数规模越大,意味着Stable Diffusion训练、推理本地模型的算力要求越高。多位AI创作人表示,Stable Diffusion早期版本用英伟达2020年发布的RTX 30系显卡就能有好的生成体验,但最新版本,只有英伟达RTX 4090/4080这样的消费级显卡才跑得动。AI视频领域,创作人普遍还在关注另一个来势凶猛的模型——OpenAI今年初宣布的视频模型Sora。Sora大大拉高了公众对AI视频的预期。甚至有人认为,Sora不是生成视频的模型,而是生成“世界”的模型——它可以在数字世界中复刻“现实”,甚至可以让数字世界按照“现实世界”的规则持续演进。行业普遍判断,Sora将会带来参数规模更大、效果更逼真的模型。类似性能的开源视频模型,最终将会部署在PC等终端设备上。这对开发者、创作人的本地显卡设备提出了更高的要求。这恰恰正是英伟达所擅长的——用技术压榨硬件的性能。今年3月的GTC现场,英伟达CEO黄仁勋在发布数据中心芯片B200时说,“我们需要更大的GPU,一个非常非常大的GPU。”在消费级显卡领域,这同样是趋势。对创作人群体来说,他们不仅需要性能更强大的AI芯片,还要更专业的AI芯片。英伟达RTX系列显卡从游戏起步,跨入创作领域,它性能足够强大,能够承担不同任务,但随着专业场景不断涌现,用户也提出了更多需求。AI创企艾哎集瑟科技联合创始人言萧表示,其团队所研发的即致AI是一款建筑设计方案设计图实时生成的本地应用,可以帮助建筑设计师快速产出设计效果图。游戏玩家更注重GPU光线追踪特效、画面插帧等性能,但是生成式AI创作人则更注重算力性能和显存大小。一个判断是,考虑到目前消费GPU市场有竞争力的厂商并不多,英伟达RTX系列显卡至少在未来三年仍会是AI创作人的优选。AI创作只是AI专业办公的一个领域。更多AI专业办公领域正在诞生,它对PC提出了更高的要求。PC也在进化,它需要具备更强的AI能力——AI芯片和AI应用相辅相成,它们正在催生AI PC的浪潮。2024年开始,联想、惠普、戴尔等PC厂商都在推出AI PC,替换传统PC。按照国际市场调研机构Gartner的定义,AI PC指配备了专用的AI加速器的个人电脑。Gartner 2024年3月数据预估,到2024年底,AI PC出货量占比将达到22%,出货量将达到5450万台。到2025年,AI PC的占比就将高达43%。Gartner判断,尽快在设备上采用生成式AI功能和AI处理器将成为一项对厂商的标准要求。英伟达RTX系列显卡更大的市场空间是,接下来的AI PC替换潮。英伟达已经在顺应这一趋势——一方面提供AI算力,一方面适配AI应用,形成良性循环的生态。以GeForce RTX 40系显卡为例,它可以提供200 AI TOPS(TOPS是人工智能处理性能的单位,表示每秒运算万亿次操作)到1300 AI TOPS的算力,可以加载超过500款AI应用和游戏支持RTX技术,其中超110款是支持AI加速的生产力应用。GPU是目前运用范围最广的AI处理器,几乎每一台电脑都会搭载,它天然可以处理AI任务。英伟达在全球独立显卡市场占据80%份额。这也意味着,在AI PC的竞争中,其他公司还在想办法在AI芯片中占据一席之地,但英伟达已经占据先机。使用RTX AI PC的AI创作人们,也已经在商业化道路上跑了很远。火星时代教育联合NVIDIA Studio研发的《NVIDIA TensorRT Stable Diffusion创作加速指南》:https://www.hxsd.com/pdf/viewer/HXSD-NVIDIATensorRT-GuideBook/AI模型分享平台吐司发布的《个人用户玩转Stable Diffusion的GPU配置推荐》,内含多款消费级GPU性能测评:https://tusi.cn/event/nvidia