从“可计算性”到“可生成性”
forcode:今天这个标题,我知道不够“标题党”,可能难以吸引很多人进来凑热闹,但是,我认为本文对“可生成性”这一未来趋势的总结,以及对“数据资产入表”的理解,非常新颖,通过类比“可计算性”带来的信息革命浪潮,能够更加深刻地理解今天生成式AI技术普及扩散到各行各业各个领域的科技革命浪潮,有点“技术哲学”的味道在里面,我个人是非常得意的!
5年前,我曾经写过另一篇有点技术哲学味道的总结《从“通用计算”到“通用操作”》,也特别自我感觉良好,我认为是对人形机器人特殊价值最好的概括。
理解本文对话中我所讲的全部意思,需要有本科以上学历,最好能有统计模型、计算机原理、经济学基础、实证主义研究方法论等方面的背景知识,还需要一点想象力,否则乱作评论可能会体现出你的无知,订阅号这种公众平台,小学学历的人都可以乱发言,很容易“鸡同人讲”,我用这个冷门标题,也是希望过滤掉那些文盲。
但有足够知识水平和思考能力的读者,一定会从我的思考中有所启发。
//刘煜辉:G2分手以后,平行世界的“分手费”就是美西方的通货膨胀。
接下来中国无论是哪个主体要加杠杆,新的一轮债务的扩张,一定是要有抵押品的。这个抵押品是什么?过去40年是房地产,新的一轮抵押品是什么?要从技术上缓解收缩,关键的一点是要找到支持新的债务扩张,加杠杆的抵押品。我们进入了一个数字的时代,数据是新时代最重要的新型生产要素,没有之一。新型的生产要素就面临一个资本化的过程,还要变成一个信用的抵押品。它要承担经济的债务再次扩张的重任。原则上,今年1月 1 号已经讲了,数据可以入表,而且出了指导规则的细则。并且一季度财报,资产负债表已经出现一个新的科目,叫数据要素资产,资产已经在形成。某些公司逐渐在累积这样的被认证的数据资产。随着这个资产的增加,实际上是增加这个公司资产的信用扩张能力。所以,要对冲土地要素锐减造成的信用收缩,对政府来讲,现在没有别的抓手,只有这个。
网友:这个数据资产是个什么概念?怎么定义它的价值?它能产生现金流吗?一份数据资产能产生多少现金流才是合适的合理的低估的高估的?
forcode:AI时代,你想一想大模型训练依据的不就是数据?训练好的大模型,可以做各种各样的事情:
智能汽车搜集的人类司机驾驶操作与道路环境车况匹配的数据,依据这些数据训练出来的自动驾驶大模型,无人驾驶代替数百万货车司机和十几亿私家车司机,每月收费100-500元,不过分吧,这个无人驾驶的大模型行业整体估值至少是几千亿甚至几万亿人民币的价值;
工厂摄像头、录音、温度、湿度、室内定位、转速等成百上千种传感器搜集的各种设备、零部件、材料、环境的数据,可以实时更新到数字孪生平台,工厂内各种工业机器人、人形机器人、物流机器人才能相互配合不乱套,工厂可以做到无人化,这些数据及其训练出来的大模型和数字孪生系统值多少钱?
健康医药方面的各种数据、病历档案、医药数据、挂号数据等等,整合起来可以用于改善就医流程、降低医疗成本、提高药物开发速度,价值更是巨大。上周我参观数字中国建设峰会,跟一家做医疗影像的公司工作人员交流,他说一张病理活检切片在800倍光学显微镜下扫描获得的图像体积是数百G的体积,他们有专门的AI模型(不是生成式AI算法,因为这个错误率较高)来识别有没有病变,阴性判断准确率极高,阳性识别会圈出来供医生参考,可以大幅度降低活检成本、提高诊断速度和准确率,因为靠人眼在800倍的广阔影像里搜索病变信号,很容易遗漏,但在AI帮助下,99%的阴性区域都不用人眼去搜索浪费时间了,经验丰富的医生直接花几分钟查看AI圈出来的疑似阳性区域即可,单个医生一天内能够看的活检图像数量提高了几十上百倍。你说这种几百G一张的活检显微镜扫描图片数据,是不是有价值?
所以,数据资产绝对不是虚无缥缈的,而是真实创造了价值,尤其有了深度学习等AI算法的加持,这些数据可以用来训练出各个垂直领域的AI模型,可以实现越来越多行业的无人化、智能化、自动化,大幅度提升社会生产力水平……
网友:有不断新增(活跃)的数据资产才是有价值的,如果用来替代土地,怎么抵押动态的东西,怎么估值不更新就快速贬值(甚至很快贬值为0)的数据?没想明白。
forcode:比如一家公司拥有中国过去几十年各个地区非常高分辨率的气象数据,这个气象数据跟各行各业的数据、宏观经济数据、大宗商品价格库存产量等数据,都可以整合到一个数据库里进行多变量统计分析,可以洞察到很多规律性的东西,比如厄尔尼诺和拉尼娜对原油需求、库存和价格的影响,这种模式化的洞察,就可以用来指导投资,进行气候套利,或者降低某些行业的灾害损失,或者用于指导行业的产能规划,降低产能过剩的损失、在需求高峰期到来之前扩大产能从而最大化收益等等……
那么,这家拥有气象数据的公司,就可以凭借这些多年积累的数据入股一家公司,这些数据直接就换取到了某家2b的咨询公司或生产性服务业公司的股权,比如类似wind或彭博资讯服务这类数据企业可以整合这类气象数据,提供会员付费服务,或者提供行业气象咨询服务……
网友:到你这本质上仍是存在过多年的数据服务,只是精度和纬度更多罢了,这称不上经济发现的信用抵押物,规模和资产属性以及带动的经济规模远远不能和房地产曾经的作用相比。
forcode:ai大模型就是数据处理的成果,今天,人类现在已经找到了非常有效的方法来洞察文字、音频、图像、视频、蛋白质结构、自动驾驶、人形机器人关节运动、气象、三维空间等各个领域海量数据中的规律模式的方法,这就是生成式ai,不需要人类进行人工标记,ai可以无监督学习。
以前在计算机那一波信息革命时代,有一个基础概念叫做“可计算性”,就是一个领域的信息,能否用0和1来表达和计算的,最初我们以为计算机只能用于计算炮弹弹道轨迹、财务数据等信息,后来发明了文字编码规则后,计算机可以显示文字,文字居然也变成了可计算的信息。
再往后,图像居然也可以用0和1来表示,计算机突然具备了图形显示和处理能力,图像也是可计算的了。
接下来,音频、三维空间、通讯、社交、商品信息乃至游戏、视频、智能等等,原来认为不可计算的信息,统统都可计算了。
今天,我们还将对生成式ai的想象力局限在生成文字、音频、图像、视频、蛋白质结构、药物分子结构或人形机器人关节运动等有限领域,但就像“可计算性”在电脑时代不断将其应用领域拓展一样,未来“可生成性”的应用领域也将不断拓展,我们将发现,原来我们认为不可ai生成训练的数据,统统都可以用于训练和智能化了,只要我们找到了合适的方式来表达这些数据。
这将在各行各业引发智能化无人化的革命!
毕竟,生成式ai算法,最初只是一种用于语言翻译的算法,谁也没料到这种算法居然有如此巨大的威力和可扩展性。
网友:我的理解,它是否有“价值”并不是最重要的。信用/货币,很关键的一点是它能否随着宏观经济活动相应地扩张和收缩。这里的“数据资产”在可见的未来好像并不具备这样的特征和代表性。如果刘的意思是,靠它取代房地产作为信用货币的载体,完全无法理解[想一下]。这感觉和股市里炒概念差不多[捂脸]。
forcode:“数据资产”一点也不“虚”,就好像土地使用权、品牌授权、专利授权、软件使用权等无形资产一点也不虚一样,土地使用权是你实打实需要花钱购买的,有些公司的土地使用权资产可能是数百亿的规模,你不能因为土地使用权看不见摸不着,就认为它只是一个概念炒作,没有土地使用权,你就没法开发这片土地,你就是违章建筑,既然你花了钱来获得这个无形的土地使用权,结合土地使用权和其他生产要素来投资进行了开发,并且未来可以预期会获得收益,那么,这个土地使用权就是实打实的资产,就有其交易价值。
类似的,数据资产也是一种无形资产,企业购买了这个无形的数据之后,结合数据中心、AI算法、科学家、工程师、带宽和资金等其他生产要素进行投资,生产出了AI大模型或自动化智能化的解决方案,可以获得用户一次性付费、月租费或提高了某个产品的价格(比如有自动驾驶功能的汽车卖更贵的溢价能力),那么,这种数据资产的价值就是实打实的,不是概念炒作。
网友:是的,为什么要讲数据确权的很重要一点就是需要资产端的一个东西作为抵押品支撑有收缩风险的宏观资产负债表。当然,只是数据还不够,但是能起到让收缩边际放缓的作用短期来看也足够了。
forcode:数据这种无形资产,具有一种跟原子实物资产非常不同的特性:极低的复制成本,这意味着一份数据卖给100万家公司或10亿个人,公司本身不增加多少成本,但其他公司或个人获得这些数据之后,能够产生的价值,却具有无限可能,尤其AI时代,多一个独家数据来源,能够产生的价值有时候可能是不可思议的。
比如,腾讯托管了你的QQ空间、微信朋友圈、视频号、订阅号、聊天记录等非常隐私的信息,它训练出来的AI大模型,完全可以将你的所有的个人数据纳入到上下文进行个性化服务,比如,我可以询问腾讯元宝(AI大模型助手),我以前在云南吃过的有一种美食,忘记名字了,请你告诉我,然后,AI助手分析我过去几十年发在微信朋友圈或微信聊天记录的文字、图片、视频,可以回答是不是汽锅鸡?还是油炸腊猪脚火锅?腾讯依托独家的个人隐私数据,相当于变成了个人记忆外脑,随时可以帮我搜索我自己可能都记不清的经历。我甚至可以继续问,在福州哪里可以吃到汽锅鸡?然后AI助手可以分析大众点评网、抖音、美团等店铺的文字、图片、视频评价,结合我个人的口味偏好、消费层次,给我推荐最符合我心意的餐厅,或者给我推荐电商平台上最符合我口味的预制菜……
依托QQ和微信托管的大量个人隐私、独家数据,腾讯的AI助手,将比你肚子里的蛔虫还要了解你……
如果腾讯开放一部分脱敏的个人朋友圈、聊天记录、视频号、QQ空间数据训练出来的AI大模型,用于公共服务,比如目前已经应用的腾讯广点通的AI算法匹配的目标人群广告投放,就已经产生了巨大的商业价值。
如果腾讯成立一个类似淘数据这样的付费服务,向第三方开放一部分脱敏的独家数据,对于很多公司的商业决策,将带来巨大的帮助,比如腾讯可以开放数据给商家,特定时间段特定地区里,该商家特定产品的名字在微信朋友圈出现了多少次,商家可以依据这一点来评估某个品牌广告或口碑软文产生的效果……
黄奇帆分析过,中国在消费服务业方面,与美国欧洲等发达国家差距相对较小,但在金融(会计、保险、投行等)、法律(税务咨询、投资者诉讼等)、生产(工业软件、数据服务、咨询等)等生产性服务业方面的差距非常巨大,数据资产入表和数据交易所等政策措施,将促进中国数据大规模交易,促进生产性服务业和AI技术在各行各业的研发应用大爆发,提升各行各业的效率、降低成本,释放出巨大的生产力和利润空间。
网友:我不否认它的价值,但宏观上,作为信用货币的话,是否有价值不是最关键的,有价值的东西太多了。也许我们说的不是一个意思吧,可能你指的是微观上对具体企业的价值,而非信用货币发行吧。但你引述的刘的看法,他似乎在讲宏观的问题,那就是另外一回事了。
forcode:数据资产可以入表,就增加了企业净资产,企业贷款时可以抵押给银行的抵押物评估值就可以增加,很多杠杆率限制就提高了,企业就可以贷款更大金额,信用创造和货币乘数就上去了,未来数据资产在企业资产中的比例将越来越大,信用创造的规模也会不断扩大。
网友:河南郑州有一个数据交易中心
forcode:全国搞了二十几个数据交易所了。
//按照《倡议》,数据交易机构将在未来一段时间内推进数据产品“一地上架,全国互认”;数据需求“一地提出,全国响应”;数据交易“一套标准,全国共通”;参与主体“一地注册,全国互信”,推动构建统一开放、活跃高效的数据要素市场。
北京国际大数据交易所、北方大数据交易中心、上海数据交易所、苏州大数据交易所、华东江苏大数据交易中心、江苏无锡大数据交易有限公司、宿迁市数据交易中心、浙江大数据交易中心、杭州数据交易所、温州数据交易中心、福建大数据交易所、江西省数据交易平台、青岛大数据交易中心、山东数据交易有限公司、郑州数据交易中心、武汉长江大数据交易中心、湖南大数据交易所、广州数据交易所、深圳数据交易所、广西北部湾大数据交易中心、海南数据产品超市、西部数据交易中心、德阳大数据交易所、贵阳大数据交易所等24个数据交易机构联合发布此次《倡议》。
https://mp.weixin.qq.com/s/wMWGKdoNfhK4X22qS4B8Tw
网友:知网不就是利用数据资产提供服务吗,但是利用数据资产赚钱的好像也不是很多,知网,我的钢铁网。毕竟除了知网大学毕业必须用,其他的对普通大众好像也不是刚需
forcode:腾讯的QQ会员,游戏会员,腾讯视频会员,腾讯音乐会员,微信广点通付费广告按点击付费,百度按排名竞价广告,抖音信息流视频,百度网盘资料……这些统统都是数据资产。互联网企业高科技企业为何市净率特别高?因为它们的注册用户、软件平台、付费会员、用户时长、用户活跃度、用户行为数据、用户存储数据、ai模型、ota推送能力、用户互动、用户相互关系(比如关注点赞收藏)等数据资产多数无法入账,而这些数据资产实打实能够在未来为公司带来自由现金流,其价值真实存在却不体现在财务报表中,所以过时的财务会计准则实际上严重低估了这类互联网高科技公司的净资产,所以高科技公司看似pb估值搞得离谱,实际上很多却有其合理性,因为其账面价值被严重低估了。
网友:数据和土地有一个最重要的区别。土地具有唯一性,但数据不是。你有居民出行数据,我也有,你有气象数据,我也有。相互之间可能覆盖面并不一致,但却是非唯一。数据可以是替代土地出让的一个途径,但只是其中的一小部分,真要形成规模,要看十几年后了,现在也解不了近渴。能替代土地出让的,必定是能让居民的生活方式发生重大改变的事物。
forcode:数据资产在生成式ai训练下进行推理,可以帮你把各行各业的人类劳动一个接一个给替代掉,无人工厂、无人农场、无人矿山、无人物流、无人配送、无人战场、人形机器人、自动驾驶……人类生产力水平将在未来几十年里出现一波大飞跃,远超过土地的价值,还不够你臭牛逼的?
网友:数据的价值在于信息不对称性,如果越发对称了的话,数据的价值就大为降低,所以这也是数据价值本身的悖论。
forcode:你这个前提就不成立,数据的价值主要不是什么信息不对称,而是数据综合到一起后产生的多变量统计控制潜力,如果你学过统计模型等多变量分析方法,你就能知道,统计分析本质就是一种假设检验,是基于概率论来做对照实验,对照实验是近代以来实证主义科技能够飞跃的研究方法核心,多变量的统计模型,将更多变量纳入同一个数据库后,才可以统计控制更多变量,分解出每一个因素对目标变量的影响系数,人类对各种相关关系、因果关系的认识才会更加可靠深入。
生成式ai则是更加先进的数据模式洞察工具,传统统计分析基本上是分析结构化数据,数据分析之前需要进行大量的数据搜集、数据清洗工作,而这个世界上99%以上的数据都是非结构化的,传统统计模型对此无能为力。
现在,有了生成式ai这个超级武器,我们突然有办法分析总结非结构化数据中隐藏的模式、经验、知识和规律了。
传统的多变量统计分析工具,分析结构化数据后,会给出一个多参数的方程,每个参数前面不同系数代表其对目标变量的影响权重,我们以为,各个领域的规律都可以这样总结成一个多参数的等式,但生成式ai表明,很多非结构化数据中隐藏的模式,用公式无法总结,但用一个几百G或更大体积的ai大模型,却有可能总结。
最近十年,深度学习算法带来的重大突破,最根源的,可能不是算法的进步,而是由于智能手机和4G5G网络技术的普及,带来了数据规模增加了几个数量级,ai算法突然有了更大得多的数据可用于训练,所以其表现达到了不可思议的效果。
几年前,ai科学家就发现,算法本身不需要改变,简单增加数据量,模型的准确率就能持续提升。
所以,数据的价值不在于什么信息不对称,这已经是古董想法了,在统计模型时代就不成立,在ai大模型时代更是过时了。
网友:这就要回答两个问题(先撇开数据资产的定价、交易这类问题),第一,由数据资产本身引发的经济活动在规模和类型上是否足以代表整个经济体的经济活动;第二,以数据资产为基础的信用货币发行,是否会随着经济体经济活动而扩张或收缩。一个东西有价值能在银行抵押获得贷款,不意味着这个东西能作为信用货币的发行基础。比如说石油吧,经常有人说“石油美元”,对,它可能是促成美元成为国际货币的重要因素,但美联储(或者任何一个中央银行?)实践中并没有以石油资产作为美元发行的基础啊。
forcode:这都是假问题,能创造现金流的东西,就可以证券化,就叫资产,能够抵押获得贷款,就已经在创造货币了,贷款行为本身就在生成货币,就是一种信用创造。
网友:所以就是我之前说的,这里讨论的是某个资产有没有价值、能不能抵押贷款(贷款确实是创造了信用)的微观问题;还是在讨论“数据资产”能不能作为中国这样一个经济体信用货币发行的基础,这是一个宏观问题。在我看来,你提到的这些都是微观层面的问题,我一直也不否认数据资产有价值、用它在银行抵押获取贷款的这个行为微观上也是信用创造。我存疑的是,宏观上,数据资产如何成为中国这样一个经济体信用货币发行的基础(按照我的理解,这也是最初文章中刘提出的设想)。
forcode:没什么宏观微观,无数以数据资产作为抵押品进行的贷款(信用创造)活动汇聚起来,就是在发型信用货币了,大部分人对ai大模型对各行各业自动化智能化带来的深刻广泛影响还严重估计不足,以为数据资产只是个几千亿或几万亿的规模,可以说,这是几百万亿人民币级别的超级庞大产业,人类有史以来最大的产业,比什么全球石油贸易、全球土地贸易量,要大得多。
网友:这里的几百万亿,指的是数据资产及其生产、交易【本身】能够产生的经济价值是几百万亿,还是它能影响到的行业,这些行业加起来创造的价值可以有几百万亿?
forcode:肯定是所有基于数据资产这种生产要素衍生出来的各种生产性服务业、生活消费类服务业和实物商品等都包括在内,就想想未来ai应用到各行各业的自动化智能化无人化将取代掉数十亿劳动力,将节省多少人工成本,极大地降低各行各业的成本,提高效率。这个几百万亿人民币,也不是我原创,而是黄仁勋说的,token将创造出超过百万亿美元的新产业。光人形机器人产业,未来恐怕将远超汽车产业十倍以上的规模。
================
forcode:今天这些想法,大部分在讨论过程中形成的,我个人是感觉很爽的,分享给大家!现在没有自动驾驶,大部分人自己开不了12米长的大客车改造的房车,如果自动驾驶技术非常靠谱!我愿意买一辆12米长、带拓展的双层房车,套内面积50平米。可以长期生活在里面,云游四方……我会在车里睡觉、上厕所、洗澡、办公……车子变成我另一处房产,可以移动的家……
点击阅读全文:自动驾驶将会彻底改变很多行业
================
本文首发订阅号:forcode奇想录
未来新技术与新趋势的种种可能……
微信扫码关注该文公众号作者