北大袁粒:用户不会为只能“闲聊”的大模型买单 | 中国AIGC产业峰会
编辑部 整理自 AIGC峰会
量子位 | 公众号 QbitAI
大模型能力与日俱增,如何将其转化为生产力?
中国AIGC产业峰会上,北京大学深圳研究生院助理教授袁粒给出了他的看法:
如果大模型只会闲聊,用户是不会买单的,唯有打造垂域应用,才能把大模型变为生产力。
袁粒专注于多模态深度学习研究方向,一作论文单篇被引用千余次。
屡屡登上热搜的ChatExcel、ChatLaw等垂直领域产品,都是出自他的团队。最近,由他们发起的Sora复现计划“OpenSora”,更是引发了广泛关注。
为了完整体现袁粒的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。
话题要点
用来闲聊的玩具并不能满足用户真正的需求,将大模型转化为生产力的关键,在于垂域应用。
要做好垂域应用,必须先解决大模型的幻觉问题,一个重要方法就是检索增强生成(RAG)。
AI发展到今天,开源世界的贡献功不可没,正是有很多开源模型才推动了AI领域的繁荣。
以下为袁粒演讲全文:
怎样将大模型转化为生产力
我今天主要是来讲讲我们在多模态模型垂域上面的应用,主要是我们自己团队的工作。
首先引用浙大赵(俊博)老师的拷问,你会为一个闲聊的玩具买单吗,这是当Chat系列模型出来后,大家都会思考的。
同时在去年5、6月份,ChatGPT用户量出现了微跌,也就是说如果大家只是为了一个聊天去用一个产品,肯定是不够的,需要实实在在的转化成生产力,生产力由什么转化,就是垂域应用。
我们知道后来OpenAI动作很快,推出了GPT store,也就是GPT的商店。
我认为GPT商场中的每一个应用,就是一个垂域的产品。我们的团队也是做了一些多模态垂域的开发,包括ChatExcel、ChatLaw,既有语言生成应用,也有视觉生成的一些模型。
我们的基础平台是基于鹏城的云脑加上我们自建的算力,以及通用和行业的数据来进行应用的开发的。
我们先来简单看看一些代表性工作。
第一个就是数据垂域的应用ChatExcel,它其实是早于微软的Copilot发布的,在2022年下半年开始研发,23年2月发布。
一开始的想法很简单,是2022年下半年的时候,我的一个博士生告诉我,他说老师,我想给女朋友减负。
因为他的女朋友是一个高校的信息老师,天天要处理很多表格,大家也知道企业有很多“表哥、表姐”。所以当时我觉得这个想法很好,背后代表了大家普遍的需求,所以就出来了ChatExcel。
ChatExcel是从传统到生成式路线,而且会比生成式路线再往前推了一步,就是多模态生成。
我们看看在第一版的时候,线上能体现到这边这一部分,用文字直接操纵表格,其实WPS当前也已经能做这到一步,因为我们从2022年下半年到2023年初发布。
当然在这个之后,我们进行了升级,升级成一个多模态的模型,这个视频放一下,这也是我们目前部署给某奢侈品巨头的一个真正落地的case,大家可以看到已经不是单模态,能进行数据的可视化,以及能进行一些营销的处理,包括帮你分析这个产品哪一个明星来代言会更好。
我们ChatExcel孵化了一家企业,这个是我的学生创业做的一件事情,我也很支持他。如果大家感兴趣可以在互联网上搜到。
打造垂域应用,要先解决幻觉问题
第二个应用是ChatLaw,ChatLaw是中文法律垂域应用。
ChatLaw这个应用的动机很简单,就是在食堂和一个法学院的老师吃饭的时候,他说我们北大的法律比清华还是好的,但是法律科技在那个时候没有拥抱大模型,我们是否能做一些法律上面的东西。
所以我们一起合作做出来这个ChatLaw的模型。
其实这个很简单,思路就是用户提出需求,我们用Agent进行模型的调度、处理,最后提供法律助手服务,包括信息的分析、结构化抽取,同时能够为用户包括律师生成一些大家所熟知的诉讼状,一些文本的文件,这个是可以给普通用户,同时也可以帮律师。
当然我们目标从来不是替换律师,而是成为律师的助手,替换一些底层重复性的工作。
我们可以看看一些简单的能力,有人被裁员之后去问我的模型,我的模型会让他上传合同和HR沟通录音,然后给他分析事实,最后给出建议。
基于这个建议,我们告知他其实被裁员之后可以走劳动仲裁,仲裁流程以及劳动仲裁申请书都可以由ChatLaw生成,还会推荐一些类似的案例和判决结果。
同时我自己的学生,以及我个人,也有从这个模型中受益,这是当时ChatLaw内测的时候,我的学生身上发生的真实案例。
我的学生想买一个车,在4S店试驾,结果就遇到了一个法律问题。
一般情况下,在试驾的时候需要签一份“免责协议”,大概内容是如果开着这个车出了交通事故,责任完全由试驾人员承担,4S店则不承担责任。
但是很不幸,我这个学生把车开回4S店的时候,在视觉盲区中和一辆电动车发生了刮蹭。
当时我的学生被4S店告知,要么把这个车买下来,要么在完成定损之后全额赔偿。
当时ChatLaw正好在内测,我的学生就问了模型,我的模型最后给他的答案是,4S店的“免责协议”违背了《侵权责任法》第42条(现《民法典·侵权责任编》第1203条)的规定。
同时,ChatLaw也给这个学生生成了一份调解建议书,阐明了因为这个产品归属于4S店,所以这个“协议”属于霸王条款。
于是,这名学生拿着法律依据以及生成的文书给4S店,然后4S店对这件事情就没有再过问了,不了了之了。
虽然我的学生最后买的也是这款车,但没有在这家4S店。
这就是法律真正在普惠个人,包括我个人在现在生活当中一些小问题,也会问模型,因为很多时候它确实有效。
当然,大家也许会说,通用模型本身也能回答大家的这些法律问题。
但是通用模型有一个问题——在专业领域,最大的问题是幻觉问题,俗称“一本正经地胡说八道”。
大家知道如果问ChatGPT,“林黛玉倒拔垂杨柳”是怎么回事,ChatGPT会把这个过程说得非常清晰生动,甚至最后林黛玉的性格都能分析出来,说是《红楼梦》某一回的,这种问题非常严重。
去年上半年我们开发垂域模型的时候就知道,垂域模型必须要解决幻觉问题,所以我们当时提出来,现在大家都很熟知这个词叫检索增强生成。
那个时候确实是我们首次做出来的,只是我们没有把这个概念提出来,让大模型做大模型的事情,让检索做检索的事情。
当然这套框架,大家感兴趣可以读论文,我们也开源了一部分模型,但是商业版比开源模型更好。
其实简单说就是用检索的方式在数据库里面提取出一个参考信息,让这个检索参考信息抑制或者缓解模型的幻觉,尤其是发动“紧急立法权”编造法律条文这种重大问题。
这也是通用模型和垂域模型一个重要的差异,尤其在法律这种严肃的场景下一定要考虑这个问题。
“开源版Sora”是产业的期待
做完垂域应用的时候,当然大家可能说,一个高校团队好像做的事好多,确实,为什么?
因为我们在高校里面,不是追求必然的商业化,而是做有意思的科研和有意思的事情。
我最后介绍的一个东西是联合实验室最近的一项工作,叫做Open-Sora Plan,Sora的开源计划。
我刚开始发起这个计划的时候,很多人问说为什么叫复现,不叫超越。
我说我们还是要实事求是,我们离国外的大模型还是有一定差距,我们能把它复现出来,尤其我们作为高校团队,在算力和数据资源都有限的情况下,我们能复现出一版tiny Sora已经不错了。
而且我们这个是开源项目,我们选用的是MIT license,同时所有的人都可以无条件的用我们开源的数据和模型。
当然我们大家知道,在大语言模型ChatGPT出来的时候,其实还没有开源的模型,整个商业界或者整个产业界和学术界都比较难受——学术界没有研究对象,商业的生态也没有繁荣。
所以后来有了Meta的Llama,我们这个开源的目标就是能否做出一版视觉版的Llama。
这个事情为什么想在高校做,因为高校的姿态是中立,所有人都可以受益,我们拿的是纳税人的钱,做的事情繁荣了生态,也就没有浪费他们的钱。
所以我们想做这件事情。
于是我们很快把这套框架搭起来了,这个框架分为三个部分——视频编解码器、Diffusion Transformer,以及条件注入。
我们把这个框架搭起来之后扔给开源世界,整个开源世界,尤其在推特上面发布之后,对此是很支持的。
我们最看重是技术社区的评价,因为它才是大家真正从技术角度考虑的结果。我们也很快在GitHub上登了第一,目前Star超过 10K。我们这个特点是什么?
我觉得Sora这条技术路线的优势是能生成长时视频,原因之一是因为在训练的时候,喂给了它很长的视频片段。
所以里面核心模块之一是第一部分Video VAE,就是视频编解码,需要对视频进行压缩,因为无法将一个1分钟的视频直接放在一个80G显存的显卡。
所以我们在Video VAE做了很多工作,目前Video VAE能够对视频进行压缩,而且压缩完之后能重建保持高清晰度。
我们现在能够把1分钟1080P的视频塞进80G的显卡,如果是半分钟720P的视频,我们能塞4个。
我个人认为,视频重建就是视频生成的上限。如果无法压缩重建一个视频,也就无法生成。
我们现在能够对视频进行256倍的压缩,而且信噪比能保持30以上,信噪比越高,表示重建信号越好。
而且重建视频的同时也能够重建图像。我们现在开源的版本是能够压缩256位的视频,当然下一步目标是压缩512位,大家可以用我们的CausalVideoVAE进行视频压缩。
我们也进行了数据收集,有两类方案。
一个是爬取视频数据,因为是文生视频,需要打文本的标签。
但是这个很受限于标注模型的准确度,会受限于现在用的多模态理解模型,所以文本和视频的对齐度不高。
方案二也是用文本驱动物理引擎,比如游戏引擎去合成数据,这样的话文本和视频的对齐度和细粒度会非常高。
而且我们也是刚刚打通了这套数据收集方式,用文本的Prompt驱动游戏画面,让人物做出特定动作。
这种合成数据有个好处,就是对齐度高,收集速度也快很多,因为不需要打标,只需要构造很好的文本Prompt,驱动物理引擎。
大家知道Sora里面有很多case的场景很像物理引擎生成的,我个人认为就是这样的数据的功劳,所以我们现在也把这条路刚刚打通。
关于模型收敛情况,我们在上周发布了第一版预训练模型,坦率讲离Sora差距很大,不过我们仅仅用了一个实验室,用很少的算力预训练。
从我们生成的一些Demo来看,包括面包被烤熟、种子发芽这种质变场景,都比较符合物理规律,这个是Sora模型的核心。
视频生成的长度则是几秒钟到十秒钟。
当然,还可以建模游戏里面的一些场景,比如让它生成“我的世界”中建造房子的过程。
我们也有我们三阶段的复现目标,第一阶段已经完成了,就是1.0的版本,现在已经公开。
大家都可以用,包括压缩工具CausalVideoVAE也可以,不需要我们的商业授权,因为这就是开源的事情。
我们现在在第二阶段,该阶段目标也是开源项目的最终目标,我们希望训练出的模型可以生成20秒以上、720P清晰度的视频。
开源世界对我们支持了很多,比如我们合作伙伴,也是联合发起方兔展智能,为我们提供了百卡H100和H800的算力,进行第二阶段开源项目的研发。
华为昇腾团队也和我们积极合作,为我们提供了算力支持。
同时我们也承诺,第二阶段仍然开源。
当然在第三阶段,是超越开源项目的目标,这个是在座各位以及工业界能有更多的算力和更多数据,让它更接近Sora,尤其是在泛化性和时长上。
最后,我个人觉得AI发展到今天,开源世界的贡献功不可没。
大家知道的ImageNet数据集是开源的,很多的深度学习模型也都是开源的,所以才推动了这个领域的繁荣。
所以这个事情的意义是比较大的,学术界和产业界都有一个可以用的类Sora架构的模型。
好,我的演讲到这,谢谢大家。
— 完 —
点这里👇关注我,记得标星哦~
微信扫码关注该文公众号作者