Bendi新闻
>
七年磨一剑,星爵要让Zilliz成为向量数据库领域最亮的那颗星 | 助力中小企业AI化系列访谈

七年磨一剑,星爵要让Zilliz成为向量数据库领域最亮的那颗星 | 助力中小企业AI化系列访谈

6月前

导语:3月28日,创业黑马集团在2024黑马AI培训战略发布会上,董事长牛文文表示黑马致力于成为面向千行百业中小企业的AI应用推广和服务平台,希望AI产业专家、产业龙头、产业投资机构和产业新锐企业,一起携手助力中国中小企业AI化,一起推动中国AI产业的创新发展。

i黑马作为创业黑马集团旗下的核心媒体平台,推出“助力中小企业AI化”栏目,挖掘并报道AI产业中能助力中小企业AI化的企业或机构,促进他们与中小企业之间更好的联动与合作。

刚刚结束的英伟达GTC大会,堪称“AI界的春晚”,除了黄仁勋发布的Blackwell芯片和机器人等新品以及未来对NIM软件服务平台的投入,让人备受瞩目,还有另外一家中国AI企业荣耀绽放,那就是向量数据库头部企业Zilliz.创始人星爵,携合伙人及研发VP栾小凡、AI和机器学习负责人Frank Liu ,集体亮相GTC大会,在不同的活动环节进行主题演讲,让全球AI从业者牢牢记住了Zilliz这家公司的名字。

那,什么是向量?什么是向量数据库?在哪些场景中应用?对于企业AI化有什么价值?Zilliz又是凭什么获得英伟达如此高的重视度?带着这些疑问,我们趁创始人星爵回国的空档,进行了一次简短的交流。

以下内容是访谈精选,用一杯咖啡的时间,品一下。

向量是由机器学习模型所产生的一种高维数据的表示,被用来表达各种非结构化数据的语义。星爵看到全球80%的数据都是非结构化数据,这是一个具有无限想象空间的市场。于是在2017年毅然辞去美国Oracle公司云数据库创始工程师的高阶职位,回国创办了Zilliz,并在2018年推出了Milvus向量数据库服务产品,7年的创新与坚持,Zilliz已然成长为向量数据库领域的头部公司,也获得到了英伟达的青睐与合作。

01
Zilliz眼里的数据世界

早在2018年,星爵就看到了AI里面的三支柱:算法、算力和数据,并预见到非结构化数据领域的巨大机会。

在过去几十年的 IT 时代,我们见证了关系型数据库和结构化数据处理的兴盛和繁荣。结构化数据指的是按照固定格式或模式组织的数据,这使得它易于被计算机系统和应用程序存取、查询和分析。这种数据通常存储在关系数据库中,如SQL数据库,其中的数据被安排在表格中,表格有明确的行和列。每列都有一个预定义的数据类型,如整数、浮点数、字符串等。例如,一个公司员工的数据库可能包含多个表格,如员工信息表,其中包括员工编号、姓名、职位、部门等列。这种结构使得可以很容易地执行如搜索特定员工、列出某个部门所有员工等操作。

在 AI 时代,数据处理的类型发生了变化,从结构化变成了非结构化。非结构化数据指的是没有预定义数据模型或不容易适应传统数据表格结构的数据。这类数据包括文本文件、电子邮件、视频、音频、图像、用户行为画像和小分子三维结构等。非结构化数据通常不符合固定的格式,其内容的组织方式和表达形式可以极其多样。因为缺乏明确的结构,处理和分析非结构化数据需要更复杂的方法和技术。通过大模型神经网络,我们可以把非结构化数据转换成计算机能够处理和理解的数据类型,这个数据类型叫做向量。变成向量以后,就可以让计算机对非结构化数据做分析、检索和管理,这样就可以赋能各种AI的算法和AI的应用场景。

随着 AI 逐渐得到广泛的应用,需要存储和处理的非结构化数据和向量数据变得越来越多,就需要有一个专门的数据管理系统来存储管理、分析和检索,向量数据库就应运而生。

02
Zilliz向量数据库的应用场景

单纯的数据世界,是枯燥乏味的,但在数字经济时代,数据已经成为一种新型生产要素,是数字化、网络化、智能化的基础,国家在2023年底也在重点推行数据要素相关政策,并在各地开始建立数据交易所,这无疑让企业对数据的重视程度变得越来越高,也在重新思考数据到底可以在哪些业务应用场景发挥价值。

在与数据打交道多年、曾为美国Oracle公司云数据库创始工程师的星爵眼里,数据,却如繁花一般,绽放于大千世界,让业务变得鲜活而多彩。

经过7年的深耕,Zilliz向量数据库已经被广泛应用于RAG、大模型训练、数据去重、图文及视频搜索、推荐系统、问答系统、版权保护、反欺诈、自动驾驶、新药发现等场景。

1、大模型知识库(RAG):企业将私域数据经过文本分割和向量化后存储在向量数据库中,构建起专属的外部知识库,在后续的检索任务中为大模型提供提示信息,辅助生成更加准确的答案。

2、大模型训练:向量数据库在大型语言模型训练中可以用于语义搜索、去重、异常检测、内容推荐、交互式学习和微调。它通过处理和检索语义嵌入向量来提高数据处理效率,支持模型在数据预处理、训练及微调过程中更精准高效地工作。
3、多模态数据检索:在文本/图像/音频数据库中搜索与指定样本最相似的结果,文本/图像/音频的特征可以存储在向量数据库中,通过高性能的索引存储实现高效的相似度计算,返回匹配的文本/图像/音频结果。
4、搭建推荐系统:推荐系统的目标是根据用户的历史行为和偏好来推荐可能感兴趣的物品,用户行为特征可以被向量化后存储在向量数据库中,当发起推荐请求时,系统基于用户特征进行相似度计算,并返回可能感兴趣的物品作为推荐结果。

03

Zilliz Cloud为中小企业

降低AI应用的数据处理门槛


大多数企业,尤其是中小企业,都希望能使用AI,算力和模型都相对容易解决,但数据却是最难的一关。数据的沉淀、清洗、管理,以及数据如何便捷地导入大模型里面进行训练,这些都成为企业AI应用的阻力。
这在星爵看来,Zilliz Cloud就是专为中小企业降低AI数据处理和应用门槛而设计的产品和服务。
Zilliz Cloud是由Milvus原厂打造的基于Milvus的全托管向量数据库云服务,包含全托管的SaaS及BYOC向量数据库服务,提供深度优化、开箱即用的Milvus 体验。使用Zilliz Cloud可以轻松构建百亿级向量数据库,分钟级部署和扩展向量搜索服务,并由全球最专业的向量数据库团队提供运维、优化、及综合支持。
企业只需要把文本、图片和音视频这些数据给到Zilliz Cloud,通过data pipeline,把各种非结构化数据转换成为一个向量的表达。当企业要做AI应用的时候,就能便捷地把需要的数据提取出来,省去了各种中间复杂的技术环节,真正做到开箱即用。
截至目前,Zilliz Cloud 已实现全球5朵云13个节点的全覆盖,是全球首个提供海内外多云服务的向量数据库企业,付费用户遍及全球多个国家和地区,覆盖AIGC领域、电商、在线教育等场景。
Zilliz这7年来对数据创新的坚守与坚持,已然成为向量数据库领域的头部企业,这一切也被英伟达CEO黄仁勋看在眼里,连续2年GTC大会都重点提到向量数据库和Zilliz,并在今年GTC大会邀请三位核心成员登上GTC大会的舞台,向全世界AI从业者们,宣告Zilliz在英伟达业务布局中的核心地位。
当然,这也是英伟达在寻求业务增长点和持续向未来下注的关键一步。一方面,英伟达希望在数据这个层面能够分一杯羹,毕竟全世界80%的数据都是非结构化数据,英伟达希望通过跟Zilliz的合作,在AI数据分析领域,尤其是非结构化数据这个层面,找到一个坚实的增长点。另一方面,英伟达在持续向未来下注,包括机器人、自动驾驶、生物制药和NIM软件服务平台,而这些都离不开向量数据库。

04

Zilliz未来要打造

一个非结构化数据的一个平台


提到Zilliz的未来布局,星爵的眼里泛着光,嘴角流露出一丝笑意,那是一种技术人特有的自信,尤其是当下数据要素作为新型生产要素,政府加强立法管理之后,星爵觉得这是一个更大的利好,给了Zilliz更强的信心。
3月初,Zilliz上线了腾讯云,自此,已经实现了全球主流公有云的覆盖,进一步扩展了Zilliz Cloud的商业化云服务,以此可以服务全球更多的客户。
其次,Zilliz会进一步加大Data Pipelines 这个产品的投入,让客户能更便捷地把各种非结构化数据转换成结构化数据,去构建各种AI的应用。
第三,随着大语言模型的广泛应用,Zilliz会加大在多模态应用领域的技术投入,包括面向于图片、视频、语音等多模态场景下的商业产品对接,增强易用性。
最后,Zilliz的长期愿景是要打造一个非结构化数据平台,目前还只是一个提供非结构化数据的存储、管理、检索的技术平台,那再往上延展,就是一个数据平台,要具备数据交换的能力。因为对于很多企业来说,既然用了Zilliz的云产品,把数据放到Zilliz Cloud上了,可以企业内部使用,也可以在合规合法保障数据安全的情况下,把一些数据进行流通和交易,让一些经过授权合作的企业,也用起来,进一步放大数据存在的价值。

05

Zilliz推出“Zilliz AI初创计划”

助力AI初创企业成长


回到这个系列访谈的主题,“助力中小企业AI化”,黑马和Zilliz也都一直在路上。今年3月,Zilliz发起“AI初创计划”,这是一项面向AI初创企业推出的扶持计划,为全球的AI初创团队提供资源、技术、市场推广、销售等全方位的支持,还将提供总计1000万元的Zilliz Cloud抵扣金,帮助 AI 开发者构建高效的非结构化数据管理系统,打造高质量AI服务与应用,加速产业落地。
尽管Zilliz还是一家创业公司,这次推出这个 AI 初创计划,也的确是难能可贵,也进一步彰显了星爵对技术创新的长期主义。
在被问到为什么推出这个计划,星爵似乎也感同身受。他发现很多企业的工程师,其实特别想尝试一些新的产品和技术,但由于内部要走各种复杂的审批流程和采购流程,而未能如愿。因此星爵就想,如何能帮助到这些敢于创新的工程师在一个很低成本甚至零成本情况下先用起来,帮助他们去验证是有价值的,这本身就是一件对推动技术创新应用非常有价值的事情。
因此,Zilliz的AI初创计划,最基本的一个初衷就是希望有更越来越多的企业,能够零门槛的更加快速的去搭建他们的AI应用,能够把他们企业的那些非结构化数据,更好地用起来,去赋能业务,更好地服务客户。
对该计划感兴趣的可去 Zilliz 中文官网填写申请,项目专员将会及时联系(活动申请截止日期为 2024年6月30日)。
在这次访谈即将结束的时候,星爵无比感叹我们生活在一个特别好的时代,能够见证这次AI变革所带来的无限想象,再加上中国目前强大的政治经济基础,给创业者们提供了一个前所未有的全球化创业环境。

相信更多如星爵般的创业者,凭借与生俱来的聪明勤奋和坚韧不拔,一定能趁此AI的东风,飞得更高更远。



扫描下方二维码
报名参加黑马创业破局公开课
解决您的流量获客难题
↓↓↓

联系我们

转载开白或商务合作:15222191516  
与主编交流沟通:chenfu3721
i黑马,创业黑马旗下媒体,让创业者不再孤独
业黑马 媒体矩阵 推荐关注
↓↓↓

微信扫码关注该文公众号作者

来源:i黑马

相关新闻

智库访谈丨张永炜:智能物联2.0时代,如何用数字化手段助力“双碳”目标的实现?智库访谈丨谢良兵:新型园区“新”在哪里?AIoT如何助力产业园区的智慧化与绿色化?智库访谈丨葛涵涛:AIoT助力下,智能家居能从“骨感的现实”走向“丰满的理想”吗?智库访谈 | 王建峰:掘金”数据资源,开启数据资产化时代马斯克最新访谈:AI不应被教导说谎,SpaceX和星链基本不用 AI奥特曼最新万字访谈:GPT-5能力提升超乎想象,算力将成为未来最重要的货币余华对谈库斯图里卡:了解一个人的人性要看他最脆弱的部分马斯克最新6万字访谈!8.5小时详解脑机接口、机器人、外星人,以及AI与人类的未来(一)历史首个!联合国大会通过有关AI的全球决议草案;库克在中国首谈生成式AI;周鸿祎:手机厂商不做AI会成为下个诺基亚丨AI周报励志!考研三次,读博七年的他成为最年轻的国家最高科学技术奖得主!AI教父Hinton最新万字精彩访谈:直觉,AI创新的洞见和思考,未来直播回顾|如何赚到100万访谈系列:红利下的跨境电商与短视频营销Sam Altman达沃斯访谈全文:未来最重要的资源是算力和能源谈一谈 分库分表 vs NewSQL数据库爱安特戴远敏:放弃铁饭碗,我用10年做了一个工厂自动化版的“宜家” | OMEGA访谈录与AI谈一场既反叛又安全的恋爱 | 编辑部聊天室克服磨难,跑赢时间,细说埃默里大学背后的教育故事|成长教育之道系列访谈<六>只关注“顶层架构”和“底线思维”的非典型家长,如何培养出被藤校青睐的孩子?|成长教育之道系列访谈<五>万字对谈 Perplexity AI CEO:广告是最伟大的商业模式,月付 20 美元的订阅制不是 |Z Talk扎克伯格最新2万字访谈:价值百亿美金的“最强开源大模型”Llama3及背后的一切奥特曼最新访谈:AGI即将出现,未来最重要的资源是能源和算力酷渲科技孙小雨:谁说中小企业不能拥有500强的培训资源 | OMEGA访谈录两次考研两个39分,七年才拿下博士文凭!如今成为最年轻的国家最高科学技术奖得主!苹果CEO库克最新访谈:并不能100%避免AI幻觉!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。