行业大模型为“数据要素化”提供了一个新的契机。我们需要尽最大力、在最大范围、以最高效率汇集行业大数据,蹚一条新路
文 | 周乐
数据,尤其是电子数据,是伴随着处理数据的应用系统而出现的,因此,数据价值会通过应用系统在提高决策质量、优化业务流程、推动创新和个性化服务等方面发挥出显性作用,在信息化时代,人们普遍认为这种作用是由开发应用系统带来的,因此,应用系统的研发费用很早就可以计入企业的资产负债表。数据要素化,进一步强调了数据的重要性。国际数据管理协会(DAMA)对“数据”的定义是,以文字、数字、图形、图像、声音和视频等格式对事实进行表现。而“要素”是构成事物的必要因素。数据要素化,即将数据作为生产要素。农业经济时代,劳动力和土地是生产要素,工业经济时代,资本和技术是生产要素。进入数字经济时代后,数据则上升为新的关键生产要素,这意味着,数据将成为人类社会进步更加重要的驱动力。将数据变成一种新型生产要素已是共识。上到国家政策,下到千行百业,数据要素化的探索之路已经走了很远。积累了不少经验和教训。中国具有完整工业体系,在全球供应链中占据重要地位,具有最丰富的产业“暗数据”,这是我国在大模型时代最大的优势,基于这个背景,中国的行业大数据是不折不扣的“石油”,数据要素化需要一台更加有力的“内燃机”。行业大模型可能是当下最适合的“内燃机”。
2017年12月8日,习近平总书记在主持中共中央政治局就实施国家大数据战略进行的第二次集体学习时指出:“要构建以数据为关键要素的数字经济。建设现代化经济体系离不开大数据发展和应用。”数据的生产要素地位得到进一步明确。2010年后,全球各主要经济体开始将数据相关发展问题上升到国家战略层面。2020年3月30日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,明确提出要加快培育数据要素市场。2022年12月19日,为进一步让数据“活起来、动起来、用起来”,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》。2023年10月25日,国家数据局成立,同年12月发布了“数据要素X”三年行动计划。2024年,在全国数据工作会议上,国家数据局进一步明确将数据要素市场化配置改革作为一条主线推进相关工作。促进数据要素大规模流动和市场化配置成为改革发展的重要方向。这体现了国家层面对数据作为战略性资源的重视程度,另一方面,行业其实也在积极找寻数据要素化的最佳模式。不过,由于数据的无形性、非独占性、非消耗性、时效性、动态性等特点,数据在成为要素之路上还存在不少问题。在促进数据要素流通方面,政府借鉴了搞活市场经济的成功经验,通过设立数据交易所来激发数据交易。但总体来看,市场反应没有预期的热烈,尚未形成可持续的商业模式。出现这种情况,与数据交易所的交易方式有很大关系。交易所成立初期采用了数据直接买卖的方式,后期加入了数据产品的交易。初期模式下,数据脱离了具体使用场景,数据价值大部分情况下靠数据量大小来度量,这直接导致定价标准和实际价值难以匹配,并对数据权属和数据安全提出了巨大的挑战。后期模式一定程度上解决了初期问题,但产品标准化程度低,不少数据产品是将数据批量交换变成API接口,数据的交换逻辑其实没有本质变化。另外,虽然也有成功的数据产品,但总体来看,存在供给与需求不匹配问题。推进数据资源入表是数据要素化的重要一步。在这方面,财政部发布的《企业数据资源相关会计处理暂行规定》,明确了数据资源作为资产进行确认、计量和报告的具体要求。中国资产评估协会发布的《数据资产评估指导意见》为数据资产评估提供指导原则,明确了收益法、成本法和市场法等评估方法。一是数据资源的取得和处理、权属认定方面必须合规合法,涉及个人信息和重要数据的保护更需要谨慎处理。另外,数据是活的,它的活跃度、颗粒度、新鲜度和匹配度决定了数据资源成本或价值的可靠计量存在难度,时效性导致数据价值经常变动,企业内部数据虽然在企业经营管理方面作用十分明显,但入表价值延伸到诸如金融领域时,大家担心在出现风险的时候,这些抵押数据能发挥多大风险缓释作用?还有一个规避不了的挑战是,企业需要在会计报表附注中对数据资源进行详细披露,但从另一个层面来说,这也属于企业的商业秘密。以及,不同行业的数据资源特性和业务模式差异较大,导致数据入表的方法需要个性化处理。目前的模式一定程度上让数据“要素化”,但并不彻底。
数据是“石油”,数据要素化要寻找数据时代的“内燃机”。生产要素具有功能性和时代性特点,资源之所以成为生产要素,是因为存在利用这些资源创造经济价值的技术或载体。正如石油需要内燃机来彰显其能量,土地需要建筑物呈现其价值一样。当数据独立出来要素化,必须找到数据“石油”的“内燃机”。这台“内燃机”,应该解决一些现实痛点。比如:具备更强的标准化程度;能显性呈现数据的内在价值并能倍增单一个体不具备的价值;可以有效规避数据保护、隐私等安全问题;能发挥出历史数据作用,解决数据时效性问题;拥有更简单、透明的价值计量方式等特点。大模型可能是当下最适合的数据要素时代的“内燃机”。目前的大模型多是以公开数据训练出的通用大模型,这些公开数据俗称“明数据”,还有大量的数据是存在各单位内部的“暗数据”。大模型技术要赋能千行百业,其中一个重要领域就是借助大模型范式和技术,投喂优质行业数据训练行业大模型。假以时日,一旦训练出具有行业特点的行业大模型,并能在基础理论、研发设计、中试验证等关键环节展现出“多任务泛化”能力,甚至是超预期的“智力涌现”能力,将对行业带来颠覆式影响,这在生物制药领域已有成功案例。需要注意的是,目前大模型落地方案中,利用自有数据开展微调、RAG或智能体应用提升自有数据检索和理解能力的大模型还十分初级,距真正赋能行业的大模型还相距甚远。最近华裔数学家陶哲轩领衔的一份美国总统报告总结预测了AI对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的“AI登月计划”就将成真。
中国具有最完整的工业体系,在全球供应链中占据重要地位,具有丰富的产业“暗数据”,这是我国在大模型时代的比较优势,以大模型范式做为新科研范式,通过大模型寻求大参数因果律也许是弥补我们基础理论和创新研发短板的一种可能,我们期望带有“智力涌现”能力的“金融大模型”“炼钢大模型”“医疗大模型”“育种大模型”等行业大模型能早日出现。
笔者将“以大模型为中信的数据要素化”流程制作成了一张图表,如上图所示,可以有效落实《关于构建数据基础制度更好发挥数据要素作用的意见》中发挥数据要素作用,赋能实体经济等目标,以及数据要素收益分配制度中“谁投入、谁贡献、谁受益”的原则,有效化解数据要素化中的主要问题。在数据汇集环节,相对于通用大模型训练“无数不用”,行业大模型训练具有明确行业主题,更喜欢长周期历史数据,标准相对统一,数据质量更容易甄别。因此,这个环节的数据贡献度具有很好的度量性。模型训练是个相对封闭过程,训练后的模型呈现的是萃取后的参数,不会暴露任何原始数据,完美解决了加工和流通中的数据安全问题。行业大模型服务具有很好的标准化程度,既回避了原始数据流通各种不便,还能体现出“智力涌现”的增值,收费会更公平、高效、规范。这几个环节配合将形成数据要素流通的闭环,促进商业模式的成熟。上述过程的关键是数据汇集这个环节,该环节需要有能力的牵头单位和合理的汇集机制。能承担这个角色的主要有两类单位:政府或行业主管部门,以及行业龙头企业。在公共数据上,政府更容易发力。以医疗大模型为例,可由政府牵头汇集医疗机构的数据,同时利用自己的公信力,通过引入保险等金融服务或以未来的大模型服务做为回报来获得患者数据的授权,再借助大数据局等机构做为持有者联合外部机构开展大模型训练工作。行业龙头企业更聚焦到具体产业领域,以自有数据为基础,再以自身影响力联合其他同行共建行业数据集。有些行业竞争格局比较复杂,就需要发挥行业主管部门的统筹作用了。上述过程在实际操作中还将面临各种问题,比如,部门篱笆墙对数据汇集的限制,龙头企业缺少高质量数据积累,但时代大势不可逆,大模型是一种革命性技术,它影响着国家竞争力。在行业大模型训练这件事上,需要抛弃内部竞争的小格局,思考国际对手如果早于我们训练出行业大模型,将对我们产生什么影响?我们需要尽最大力量、在最大范围、以最高效率汇集行业大数据,有针对性、有序开展行业大模型建设工作,以此为抓手在数据要素化上探索出一条中国特色之路。
(作者为中信集团信息技术部副总经理;编辑:谢丽容)
责编 | 张雨菲