我们日常生活产生的庞大数据去了哪?一文解析大数据背后的“上帝之眼”|投资笔记
继《投资笔记》专栏之后,我们推出了全新的商业叙事类播客《投资笔记》。
我们探讨了最新科技领域的突破性进展与应用,分析了顶尖创业公司的产品力创新,分享了不同领域优秀的创始人们对于商业科技的思考与认知,来自投资人的视角:如何宏观地看到投资的趋势,如何微观地判断企业的潜力?
《投资笔记》播客第二季正在更新,如果你也对科技的发展抱有强烈的好奇心,对在商业世界中开疆拓土的故事充满热情,希望自己对这个世界的认知又变得更加深刻与宽广一点点,那么不妨打开电台,听一听我们为你带来的科技与商业世界的信号与电波,在小宇宙、喜马拉雅、苹果播客、Google Podcast等泛用型客户端搜索“投资笔记”即可收听。
欢迎收听本期投资笔记:S2E6 「无限供应」的数据,才是科技社会的生产资料?
喻思成
今天,全球数十亿人在同时生产数据,每个人本身都是一个数据生产者。通过言语和行动,我们不断创造数据。
观察当下数据产生的主要行业,可以发现,除了汽车、证券公司和银行等大家较为熟悉的行业外,还有其他领域可能会因数字化或数据的影响而遭到颠覆。特别是随着人工智能生成内容(AIGC)技术的兴起,文本和图形制作行业不仅可能会被AIGC颠覆,而且有可能变成一个巨大的数据平台,这为该行业带来了前所未有的机遇。
喻思成
数据平台是由一系列工具组成的集合,为数据工程师或业务分析师提供处理数据的基本工具。这包括数据采集、数据集成、数据加工、数据分析以及数据开发等环节。此外,还需对这一系列工具进行监控。显然,这一过程需要一些专业技术手段的支持。当这些工具集合在一起时,它们共同构成了一个数据平台。
大约二三十年前,随着数据仓库的出现,许多专业人士阅读了关于数据仓库的初期文献。例如,泰瑞data 专注于数据仓库的开发,但那时主要还是关系数据库管理系统(Relational Database Management System, RDBMS)的时代。
因此,像 Oracle 这样的数据库厂商能够扩展其能力,开发自己的数据仓库解决方案,这标志着数据平台的第一代。随后,开源软件开始逐渐兴起。数据仓库面临的主要问题是,当处理大规模数据时,成本会线性甚至是抛物线式增长。
喻思成
数据库是一个相对容易理解的概念。我之前在 Oracle 工作,这是全球最领先的数据库公司之一。我们将数据库称为关系数据库管理系统(Relational Database Management System, RDBMS),这是基于一个天才人物的发现:用表格型的东西来管理数据,会使得它极其易于管理。这与我们使用 Excel 的方式非常相似,尽管 Excel 是一种更简单的格式。当数据量增加到一定程度时,需要使用专业工具进行存储,并且可以随时查询数据。
传统的数据库通常被用于事务处理(Transaction Processing),即能够立即访问的交易类型。这类数据库的数据量通常不大,例如一个会员数据库,但它必须支持在多人交易的情况下进行高并发的小查询,并能够以非常快的速度提供信息。
喻思成
后来,人们开始想,除了实时交易的处理,我们还需要事后进行分析。这就是我们所说的分析过程(AP),意思是晚上下班后,我要回顾一下今天都卖出了什么,卖了多少。然后,就把事务处理(TP)数据库里的数据导入到一个更大的数据仓库里去。
为什么叫作仓库呢?因为它真的很像一个仓库,就是把所有数据都存储起来,而且这些数据不仅仅来自我们之前提到的会员数据库。数据仓库将各种数据汇集在一起,进行多维度分析。
在这个过程中,会用到各种技术,比如雪花模型等等。然后开始分析,数据要经过层层加工,最后变成业务人员也看得懂的报表,比如销售量,或者当你点击某个SKU时,能看到它的库存是多少。库存数据就不是来自我们之前说的交易数据库了,可能是来自库存数据库。业务人员可以顺藤摸瓜,不停地点击进行分析。它的特点是数据量很大,但并不要求实时反馈。比如,如果老板能在第二天早上8点看到报表,那么数据就可以在夜间慢慢处理。这就是数据仓库的概念。
喻思成
数据湖的关键点在于,以前我们往数据仓库里放的都是经过精细处理的数据。就像我们在仓库里上架商品,需要非常准确地找到合适的货架位置,把它摆放好。这样,站在货架前一看,就能清楚地知道这个商品卖了多少。再从上往下看,就能清楚地看到在这个时间段内各个SKU卖了多少。这些数据是被仔细摆放和处理过的。但是,当数据量非常大的时候,你就没有那么多时间去事先精细处理它,也不确定最后业务人员需要什么样的报表。
关键在于,你现在往仓库里送的都是原始数据,这些数据可能是半结构化的。比如说,客户在你网站上的一系列点击,产生的都是节省空间的半结构化数据,或者他们上传的各种图片和评论都是文本形式的,这些都不像传统的关系数据库管理系统(RDBMS)那样,有着严格规划的字段。
那这个时候怎么办呢?你想的是,不管数据是结构化的还是非结构化的,只要能把它存到数据仓库里就行了,其他的以后再说。
因此,数据湖的概念就出现了。数据湖特别适合处理AI模式,比如说,根据用户之前的点击日志,制作一个机器学习模型,这样就可以预测用户下一次可能会买什么。这是一个非常典型的机器学习过程。
对人来说,这个过程并不难。如果你站在柜台前一个月,你大概就能知道白发人士喜欢买什么,黑发人士喜欢买什么。但对机器来说,它需要一段时间来学习,不过它也能慢慢学会。这就是最典型的例子。很多时候,AI就是基于数据湖来进行的。
喻思成
所以,当Google发布了几篇论文,公开了它们管理数据的方法之后,人类就进入了一个新的时代。这意味着现在可以使用非常便宜,甚至是非专业化的x86机器,来搭建一种分布式的、可扩展的、非常大规模的数据处理平台。
包括MapReduce和HDFS文件格式,这些技术开始成为一段时间内业界的标准。随后,出现了许多像Hive和Greenplum这样的数据仓库软件。
再往后,我们进入了云计算的时代。你会看到每个云服务提供商都开始提供一些基础服务,通常被称为“四大件”:虚拟服务器、存储服务、负载均衡(SLB)和内容分发网络(CDN),以及其他搭建应用所需的基础组件,包括云数据库。
当这些应用在云上搭建之后,它们就开始产生数据。这些数据是真正的云原生数据,最终需要像传统应用产生的数据一样被存储和分析。
这包括不仅限于结构化数据,还有大量的非结构化数据,如日志、图片等。这些云上产生的数据需要一个地方进行存储和处理,于是数据平台应运而生。
在早期,可能只有大型企业如电信公司和银行能够投入数千万建立自己的数据仓库。但随着Hadoop等平台的出现,即使是几十人规模的公司也能够使用开源的数据平台进行基本的数据服务。到了云计算时代,即便是两三人的创业公司也可以直接在云上购买所需服务,因为成本非常低。
喻思成
云计算,就像水和电一样,确实降低了成本,但它的价值远不止于此。想想给手机充电,一年也花不了多少钱,对吧?如果人们真的在乎这是5块钱还是6块钱,那他们可能根本就不会使用手机。实际上,手机一年内为我们创造的价值与这点电费根本无法比较。它为我们打开了一个五彩缤纷的世界,让我们能够做到以前完全不可想象的事情。
对于企业而言,使用云计算包括了新闻服务、SaaS服务、数据平台这样的PaaS服务,以及可能使用的其他SaaS服务。
云计算服务让企业在非常早期就能享受到人类文明的许多成果,这在过去的软件时代是难以想象的。
无论是SaaS服务,如OA、ERP、CRM,还是PaaS服务,如数据平台,我们之前提到过的那些可能需要千万级投资的事情,企业现在可以在很早期就开始组织自己的业务。对大型企业来说,节省的不仅仅是成本,也不仅仅是早期就能享受到便利性。更重要的是业务创造力,很多以前不可想象的场景现在变得可能。即使你有钱,有一个强大的IT团队,但相比于云计算的能力和灵活性,还是有所不足。
确实,一个企业不可能同时自建数据平台、ERP系统和CRM系统,而应该集中精力于自己最擅长的领域,继续推动业务创新。如果能够利用世界上最先进的技术来构建自己的技术和业务应用,这无疑是企业应该追求的方向,也是他们的强项。这样一来,企业就能实现许多之前无法单独完成的事情。
随着数据量的增加,正如我们之前讨论的,它将创造出许多之前难以想象的价值。云计算的出现,使得处理能力以极其经济、灵活且易于获取的方式提供给任何人,即使是只有两三个人的创业团队,这在以前是难以想象的。这极大地释放了人类的创造力。
因此,在这种背景下,过去可能只有皇室才能享受的盛宴,或者只有皇室才能使用的烹饪技法,今天通过云计算,即使是最普通的家庭或小团队也能享受到。这就像是让每个人都能享受到满汉全席一样。
喻思成
在Oracle时代,软件还需要刻录在光盘上,这是其基本的边际成本。然而,随着互联网的出现,这种边际成本已经大幅降低。因为数据或信息的复制成本几乎为零,其流动成本也相对较低,这使得作为生产资料的数据能够产生非常高的毛利率。
这正是为什么许多人想创办科技企业的原因,因为它们通常具有高毛利。
那么,什么样的企业可以被称为科技型企业呢?一个重要的衡量标准是它是否将数据作为主要或核心的生产资料之一。因此,全球估值较高的企业几乎都是科技型企业,并且以数据作为主要生产资料,无论是电商平台、搜索平台还是像特斯拉这样的公司。
特斯拉被认为是科技型企业的原因,并不是因为它以钢铁为主要生产资料。相比之下,传统汽车企业的主要成本在于钢铁的使用量,以及销售汽车的数量作为其顶线收入,二者之间的差额就是毛利。但对于特斯拉来说,它的主要生产资料已经不仅限于钢铁,因此它能够实现非常高的毛利率。无论是进行升级换代还是提供智能驾驶功能时,特斯拉提供的软件几乎没有任何成本。过去软件需要刻录在光盘上,而现在可以直接通过互联网在车主的车库里远程升级。下载软件所需的电力成本几乎可以忽略不计,因此特斯拉能够维持非常高的毛利率。
汽车行业是一个很好的例子,但即便是一些相对传统的行业,也在积极进行数字化转型。比如银行,它们正在进行数字化转型以适应新时代的需求。证券行业也在向数字化方向发展,前两天我碰到一个券商人,他说他们公司之所以能够有今天这个地位,就在于几年前董事长要求把所有产品数字化,并且移动化,而不是大力发展线下网点。
电信行业更不用说了,十几年前就开始向智能化方向迈进。而我们今天看到的线上行业,本身就是数字化原生的,这点毋庸置疑。即使是非常传统的行业,比如水泥和钢铁等,也都非常重视数据化和数字化。这说明无论行业如何传统,数字化转型都已成为一种趋势。
喻思成
那么怎么做到?要实现智能出行方向的数字化企业转型,关键在于车网协同和车辆智能化,这意味着数据必须成为核心的生产资料。
智能化的实现本质上是对数据的加工处理。例如,现代智能车辆从出厂那一刻起,就已经是一个集成了数十甚至上百个传感器的移动传感器网络,这些传感器不断收集各种数据,并通过物联网(IoT)技术上传这些数据。
这些数据可以包括油门的使用程度、车门是否关闭、是否需要加氟、当前油量、速度等各种信息。通过IoT技术采集并上传这些数据之后,就可以对用户行为进行分析,实现自动驾驶,或进行智能化营销。这就是所谓的智能出行转型,其中几乎所有的生产资料都是数据。
在这种情况下,如何处理这些数据变得尤其重要。因此,提供一个能够处理海量数据的数据平台,提升数据加工生产力,就成为了关键任务。这正是我们所做的工作,通过提供强大的数据平台支持,帮助企业实现智能出行的转型,充分利用数据作为核心生产资料,推动企业发展。
喻思成
过去几年,数据仓库主要服务于商业智能(BI),而数据湖更多地被数据科学家使用,尤其是在进行人工智能相关工作时。数据科学家会从数据湖中提取数据,构建模型,但传统上,数据库和数据仓库是分开的。那么面对未来,一个理想的数据仓库平台应该具备哪些特点呢?
下一代的数据存储和处理平台,被称为“一体化湖仓”(Lakehouse),正是数据湖(Data Lake)和数据仓库(Data Warehouse)的结合体。这种平台的特点在于它既可以存储结构化数据,也可以存储非结构化数据,实现了数据存储的全面性和灵活性。
以云器科技为例,它采用数据湖的方式存储结构化数据。这意味着,当客户获取数据时,他们可以像操作一个简单数据库一样直接打开和使用这些数据。这与传统的数据库系统(如Oracle数据库)不同,后者存储的文件通常只能通过特定的软件来访问,因为其计算层和存储层是封闭的。
而在一体化湖仓架构中,数据以完全开放的格式存储,本质上是一个数据湖,这就是所谓的“在湖上建仓”的结构。
我们认为这才是未来的方向,因为它不仅建立了一个强大的数据处理能力的引擎,而且处理的数据结构本身符合所有云计算和数据湖的标准。
这意味着任何人获取到这些数据时,如果决定不再使用该数据平台,想要迁移到其他地方,也完全可行。他们可以轻松地携带数据离开,因为所有的格式都是开放且通用的,其他数据引擎也能够理解这些格式。这样的开放式架构,彻底将平台转变为面向未来的、开放式的架构,允许更大程度的灵活性和可移植性。
在这个生态链中,我们可以看到许多企业专注于特定行业,他们深入了解客户需求和业务流程,并致力于将这些流程数字化。这些企业建立起来的应用会产生大量数据沉淀,随之而来的是数据处理的一系列流程。这里,我们主要提供的是数据加工处理或炼金提炼的平台,可以比喻为一套厨具。
在这个平台之上,还有许多企业,他们利用我们提供的平台为客户处理数据。这些企业类似于我们之前提到的厨师,他们不仅了解客户的业务需求,还拥有处理数据的专业能力,能够在我们的平台上为客户提供最高效的数据解决方案或数据应用。这就是我们与他们合作的关系。
进一步地,我们还会发现市场上存在许多数据源提供者。他们可能是我们的下游合作伙伴,为我们和我们的客户提供第三方公共数据,不论是通过隐私计算还是公共数据采集的方式。这些数据源提供者也支持我们的客户进行自身数据的采集。
喻思成
在Oracle工作期间,我对中国市场客户对数据的需求有了深入的了解。确实,国外的一些商业逻辑在中国可能不完全适用,主要是因为中国的客户群体具有其特殊性。中国的客户大致可以分为两类:国有企业(包括央企)和民营企业,外企。
对于国有企业,他们的市场竞争力虽然重要,但更重要的是对管控的需求。这对中国的软件厂商来说既是机会也是挑战。这种情况往往导致技术服务商需要提供高度定制化的服务或者进行完全私有化部署。
另一方面,民营企业和外资企业在过去几年乃至可预见的未来面临着较为残酷的生存环境。当客户盈利困难时,作为服务商,赚钱也相对困难。这种情况下,客户往往会提出较高的要求,但付费意愿相对较低。这迫使服务商必须提供高性价比的产品和服务才能获得订单。从负面来看,这对服务商的盈利空间是一个巨大的挑战;但从正面来看,这实际上帮助服务商锤炼产品和服务价值。正如你所说,很多时候真正的价值不仅仅在于做事情做得更好,而在于解决客户遇到的难题。
喻思成
在云计算领域,以及其他非云计算层面,需求呈现出漏斗形或倒三角结构。这意味着,随着我们深入到更基础的层面,比如基础设施层,定制化的需求就会逐渐减少。很少有客户会要求对CPU进行特定定制,即使是让他们提出具体需求,他们可能也无法明确表达。
但是,当我们深入到SaaS层,接触到客户的具体业务,无论是客户关系管理(CRM)、企业资源规划(ERP)、数字营销、库存管理、仓储管理,办公自动化(OA)或电子签名等,我们会发现中国市场的业务流程普遍非标准化。SaaS产品旨在通过提供标准化的流程性产品帮助客户标准化其流程,并通过电子化、数字化的方式实现这些流程。这个过程中,往往会遇到许多挑战。
而且,资金充足的企业可能不太关注标准化。而那些在较为艰难的商业环境中生存的企业,可能由于成本考虑,不愿意投资软件,宁愿雇佣人力来实现定制化的流程。
但我认为,随着社会向商业化方向发展,人力成本的不断上升,最终企业还是会趋向于采用这类解决方案。我们已经看到许多企业,尤其是数字化原生的创业型企业,都完全接受了这一模式。
喻思成
随着AI逐渐成为人类的虚拟助手,它背后的支撑将是一个庞大的数据平台。这个数据平台处理的数据量可能比我们目前讨论的任何一个行业都要大上几个量级。AI将帮助我们在这个复杂世界中寻找所需的信息,而不是像现在这样,需要分别访问电商平台寻找商品或使用打车平台找车。AI将主动为我们寻找所需的一切信息。你只需告诉它你想要的生活方式,它就能帮你安排好一切。
从这个角度来看,虽然这个概念可能还有些遥远,但我相信,数据平台与AI的结合最终会带领人类生活进入一个我们现在无法想象的新篇章。
我相信数据就像是上帝之眼,假设真有一只全知全视的眼睛永远注视着每个人,那么通过数据的组合,不仅能提高效率,还能创造出许多爆发性的场景。然而,要达到这样的内部结构,我们还有很长的路要走。整合所有这些数据需要解决众多法律和法规问题。最终,可能需要像我们这样从事数据平台开发的专业人士来解决最底层的技术问题。此外,还需要拥有AI场景和模型专业知识的开发人员来实现这一切。但我认为,这是一个非常有趣的未来展望。
我经常回顾过去几十年中获得图灵奖的学者,以及一些著名公司的历程,确实能够给人带来深刻的启示。看到他们最初提出理论的时候,后来如何通过这些理论来构建技术体系,例如机器学习的发展,或是GPU(图形处理单元)的出现,这些都是推动人类科技进步的重要力量。无论是个人还是公司,他们在历史的某个阶段其实也都在摸索中前进,同样感到茫然。
有些人在计算机科学上做出了极具震撼力的革命性发明,但这些发明往往因为巧合被应用到其他领域,并成为那个领域的核心技术。我们今天阅读的很多论文,有时候我也会读,你会发现有些论文似乎没有用处。但是,有些论文确实改变了一个学科的历史,这可能是连论文的作者们自己都未曾预料到的。这确实说明了这个领域充满了许多随机性。这也是生活如此有趣的原因之一,因为它充满了很多不确定性,这让科技史变得非常引人入胜。
喻思成
甚至有人提出,未来世界的基本单元将不再是细胞或原子,而是数据。我们的世界可能会从碳基文明转向硅基文明。因此,我确实认为我们的社会可能真的会进入一个以数据为中心的时代。
数据将淹没我们整个人类。从这个意义来看,云器给自己立了一个使命,即改变数据的使用方式。这种改变不仅仅是为了提高效率,使数据使用变得更简单,还包括在我们能够达到的更远的未来,确保数据在伦理和道德上更可控、更安全,更能符合人类发展的终极使命。当然,这可能是一个非常抽象和长远的目标。但总的来说,我相信数据绝对是有其重要意义的。
S2E7 当生物计算改变制药流程,未来制药行业还需要「人」吗?
微信扫码关注该文公众号作者