对话硅谷公司K-Scale:在车库里对抗烧钱的巨头们,带全人类一起造10亿机器人
邮箱|[email protected]
邮箱|[email protected]
第一次拜访K-Scale Labs的时候,好像走进了美剧《硅谷》的拍摄现场。
一栋蓝色大房子隐约藏在路边树丛掩映后,房子里却是一副与安静外表截然不同的火热场面。
明亮宽敞的客厅里,十来名员工坐在放置一圈的显示屏前敲击代码,互相走动讨论;角落白板上标记着密密麻麻的图示和数据;通道的长餐桌上摆了各种程序员“续命”苏打水和diet coke,有人正搬了笔记本电脑坐在那里独自思考什么;厨房岛台旁,几个像是技术圈同僚的人围在一起交谈正欢,时不时冒出各种专业术语…..
“欢迎来到我们的公司和家,抱歉今天有点儿乱。”
迎我进门的Benjamin Bolte是K-Scale Labs的联合创始人兼CEO。瘦长身材的他穿着一件印有“Make something people want”的灰色T恤和休闲裤,浓浓的硅谷技术气息扑面而来。
K-Scale Labs是一家毕业于YC 2024冬季营的机器学习初创公司,致力于打造开源机器人AI平台。不同于传统的资本密集型方法,他们希望为用户提供世界上首个消费级通用双足人形机器人Stompy,任何人都可以通过3D打印轻松制造,材料成本不到1万美元。
除了硬件设计,K-Scale Labs还提供操作系统和内部训练的视觉语言模型(VLM),使机器人能够执行基本任务并从经验中学习。同时开发了一套用于在模拟环境(如Nvidia的Isaac)中训练策略的软件工具,支持用户免费开发简单任务模型,并在社区内交流。
Ben的另两位联合创始人中,软件负责人Paweł Budzianowski拥有剑桥大学对话系统博士学位,之前是英国智能语音助手公司PolyAI的机器学习主管,帮助公司从5人团队成长到超过150人。硬件负责人Matt Freed拥有机械工程和计算机科学背景,曾在通用动力旗下General Dynamics Electric Boat担任软件工程师,并成立过自己的初创公司Malamute。
而Ben本人则是一位经验丰富的机器人研究员和工程师,曾在特斯拉和Meta AI工作,向OpenAI创始大神Andrej Karpathy直接汇报过,参与了多个机器人基础模型的启动和开发。
“整间公司全是工程师吗?”我一边环顾四周一边问。
“对,我们都是搞技术的,不过正在招聘商务主管了。”
在房子的车库里,我见到了机械味儿十足的Stompy“手搓”现场:工作台、显示器、三脚架、机械臂,以及满眼的传感器、电子元件和各类扳手、电线、螺丝盒。
“我们正在做迭代,可怜的Stompy被我们拆开了” ,软件主管Paweł笑着说。
“这些部件基本都能3D打印。一些精细的传感器元件是从广东买的,中国有很优秀电子制造能力,美国或欧洲可没有这些。”
不同于《硅谷》第一季最初来自各地、尝试创业方向的迷茫年轻人们,K-Scale Labs选择在硅谷董事、高管和风投大佬聚集的Atherton小镇租下一整栋房屋。所有员工同吃、同住、同工作,每天无缝攻关技术和头脑风暴,以最大化资源。
而这个团队对自己未来的路线也非常清晰:
“K-Scale的目标是让全世界拥有10亿个人形机器人。”
Benjamin总是透露出谦逊,但谈到终极愿景,他却表现得无比笃定,“我们希望为所有人创造机会,降低门槛。先构建硬件平台和自给自足的业务,再扩展软件功能,形成可持续的系统。”
他认为这本质上是全人类的事情。拥有了免费的智能,人类就可以突破限制做更多事情,种更多粮食,建造更多道路和桥梁,甚至“走出银河系殖民其它星球”。
“宇宙还非常安静对吧”,Benjamin说。
“目前是这样。”
“所以我们需要让它变得更加有趣。”
以下为对话实录:
硅星人:介绍一下你和你的团队吧,K-Scale Labs是做什么的?
Ben:K-Scale是我们今年1月创立的公司,得到了Y Combinator和其他几家我很欣赏的优秀风投支持,正在自主研发一个开源人形机器人。我之前在特斯拉AI团队工作,向Andrej Karpathy汇报。
硅星人:所以你们在X上互相关注,现在还保持联系吗?
Ben:是的,Andrej曾是我的经理,我们在感知团队共事——现在他已经很有名了。我4月和他聊过,那次他到AI Grant做演讲嘉宾,我觉得他现在做得非常好。
至于K-Scale,我们的目标是让全球拥有10亿个人形机器人。实现这一目标的最佳方式是让很多不同的公司参与制造,这本质上是全人类的项目。所以我们希望为所有人创造机会,降低门槛,让有兴趣的人都能参与进来。
硅星人:包括你自己在内,公司现在有多少人?
Ben:我一个人进入YC的时候想:"天哪,我刚刚报名要做人形机器人!"于是我联系了Matt,我们一个月前才认识,但一见如故。他是机械工程师,曾经营自己的公司。我基本上是告诉他:“我刚进YC,你想不想和我一起搬到加州来做这个项目?” 他立刻说“好啊”,真得很酷。
Pawel是我在做语音方面工作时认识的,他之前是Poly AI的机器学习负责人。我也邀请他加入,就是简单地说:“嘿伙计们,来加州一起做机器人吧。”
于是我们三个人住到一起,在Palo Alto一个很小的类似车库的地方。我睡沙发,Matt睡沙发床。Pawel有唯一的床,因为他妻子来了,不想和我们一起住哈哈。我们在那儿制作了机器人的第一个版本。
YC结束后,我们成功筹集了一些资金,现在已经扩大了团队规模,主要专注于在不同地方寻找硬件合作伙伴,帮助他们参与人形机器人的开发。我们有4名全职员工和大约8名实习生。在筹集资金后,我们雇佣了Esther、Tom、还有一名承包商Tracy协助电气工程工作。
现在我们有了一栋大房子,目的是找到任何想来和我们一起住在这里做事情的人。
硅星人:全部人都住在一起吗?
Ben:是的,我们都住在这里。我、Matt和Pavel各有自己的房间。还有实习生和其他人,大家都住这儿。
硅星人:典型的硅谷风格。
Ben:我觉得这很有趣,而且有助于取得很多进展。
硅星人:听起来很有意思。我注意到你们非常“极简风”,YC阶段把自己简单描述为“开源人形机器人项目”。官网首页也只有一句口号,“推进人类的卡尔达舍夫等级(Moving humanity up the Kardashev scale)”。我猜这就是公司名字的由来,怎么理解这句话?
Ben:实际上我创立公司时的注册名是“别慌,保持人性(don't panic, stay human)”。因为我有一个纹身写着“别慌”,我想在另一只手臂上纹“保持人性”,这组合感觉很酷。但我妻子不同意我有更多纹身了,于是我就拿它当公司名字。
不过当我们开始YC时,发现这个名字不好,太长了,就开始想新的名字。我们开始思考真正关心的是什么。为什么想要有10亿个人形机器人?因为如果你有免费的智能,就可以做更多的事情。你可以种更多粮食,建造更多道路和桥梁,甚至走出银河系,殖民其他星球。这就是我真正关心和兴奋的事情。
这其实基于20世纪一位苏联科学家尼古拉·卡尔达舍夫提出的人类文明等级。1型文明是能够利用整个地球能源的行星级,2型文明是到太阳的恒星级,人类现在大概处于0.7。
硅星人:我们还没到1型。
Ben:对,我们还没到1型。我看到过一个图表,显示按照目前的增长速度,假设没有任何不好的事情发生,人类需要约240年才能成为1型文明。但如果你能解决智能问题,就解决了限制人类做更多事情的关键因素,开启加速增长。希望在我有生之年,能见证人类达到1型卡尔达舍夫文明,这将是一件很棒的事情。
其实这是个工程问题,第一步就是做出优秀的通用智能。除了在特斯拉工作外,我还在Facebook做过几年AI研究。我认为在体现智能方面还有很大探索空间。我们的想法是,如果给这种智能一个身体,让它们能自我复制,让机器人制造更多的机器人,生产有经济价值的东西,并作为一个业务自我维持,这整个系统就可以加速人类的进步。
硅星人:这就是你更大的愿景?
Ben:是的,绝对是。我个人的目标就是建造能自我复制的机器人。
硅星人:听起来规模很宏大啊。
Ben:嗯,这是系统的一部分。但我的意思是,如果你能让机器人自我复制并自我维持,那么这就是人类能够真正走出去,在整个银河系扩张的方式。我觉得这是人类应该做的事,应该走出去建造这些东西,给宇宙带来秩序——宇宙现在非常安静,对吧?
硅星人:目前是这样。
Ben:所以我们需要让它变得更有趣。
硅星人:期待那一天到来哈哈。对了,你一直强调开源,为什么选择开源?目前你们是如何让开源社区参与进来的,通过Discord等方式吗?
Ben:是的,我们在Discord发布所有更新。每周五上午8点同步举行线上周会,还会和一些其他非常出色的开源机器人创始人见面。有一个人叫Lingkang Zhang,Twitter网名是lethic,他真的超厉害。我们每周五都一起交流,讨论想法。还有Ian Pritchard也很出色,他在制作自己的执行器。
开源能给项目带来动力,让我们更负责任地开发。同时这也是明智的商业决策。如果人形机器人成功了,市场足够大,我认为不存在任何竞争。因为要实现10亿个全能机器人,必定需要许多公司参与。所以我更倾向于把这作为一个开源项目,而不是闭源。
硅星人:你还提到过另一点,开源能证明你们没有作弊,不是在不让人知道的情况下做事。这让我想到特斯拉的自动驾驶出租车,说是在8月推出,但似乎并不会…
Ben:Elon非常擅长销售,这在硅谷基本上是必要的,你需要推销你的愿景。但我认为现在已经走得太远了,人们忘记了硅谷存在的原因是因为它的能力,因为艰苦的工作和那种强度。你不能只是承诺某事,你必须要兑现。开源确实让我们在这方面更透明。比如我承诺到1月份就会有可以购买的机器人,这不是什么秘密,你可以去我们的Discord看到当前的确切进展,自己判断我是否诚实。
硅星人:让我们来谈谈Stompy。这是K-Scale Labs的第一个产品,现在它能做什么,进展如何?
Ben:我的背景是AI模型开发。所以我们已经为简单任务如行走、清洁和拾取物品构建了模型。挑战在于将这些模型实施到真实机器人中。我们的演示使用远程操作VR头盔,主要是控制执行器。
起初创立公司时,我们遇到了电机控制和可靠命令传输的问题。我自己尝试研究了一个月还是不行。后来我去深圳见了一些人,他们立即告诉我正确的做法。与中国生产商合作大大加快了这类问题的解决速度。
一旦所有内容集成完成,我们将在Discord上分享模拟结果。我们专注的模拟任务包括行走、站立、搬运物品等类似动作。到Stompy实际销售时,我们希望它能在房子里拾取物品并响应语音命令。我们已经发布了一些语音演示。虽然它不会是完美的,可能会犯错,但这将是一个功能性的起点。
硅星人:Stompy如何融入你的更宏大愿景?
Ben:我以前想去特斯拉工作,是因为那种“软件更新可以不断改进产品”的感觉。你不必为更好的车额外付费,自动驾驶团队的进展会持续提升其功能。我相信机器人也会发生同样的事情。
我们的主要目标是建立一个可持续的业务。一旦实现,我们就可以专注于扩展功能。每推出一个新模型,失败率就会降低,机器人会变得更可靠。例如,在模拟中,Stompy可以可靠地在受控环境中走动。然而它现实里可能会在凹凸不平的地方摔倒。但随着你安装的软件更新,它摔倒的频率会降低,能更频繁地搬运东西而不掉落。
这就是我们的想法。初期重点是硬件平台和构建自给自足的业务,然后就可以专注于软件开发。我认为软件相对容易。
硅星人:所以Stompy的目标是成为面向家庭、可持续更新的低成本人形机器人吗?
Ben:我认为它适合所有人。我们的第一个版本大约四英尺高。现在我们有两个版本,分别是三英尺和五英尺。三英尺版本会更安全,更易于投入使用,也更便宜。
我们的目标是建立一个具身AI的平台,一个能够执行你能想象到的任何物理任务的机器人,我们希望把它放在家中。除了个人使用,还有许多商业应用。就像ChatGPT可以协助各种任务一样,我们设想一个现实世界的对应物,这就是我们正在努力构建的。
硅星人:如果你不介意的话,可以说说现在的融资情况吗?
Ben:没问题。我们有足够的收入和资金维持未来两年。我们试图作为一个精益型创业公司运营,共同生活以最大化资源,也为各项支出做了足够预留。目前总融资额约400万美元,有足够资金来构建第一个原型,部分用于工资,大部分想花在模型训练上。大致就是这样。
硅星人:在这个早期阶段,如何用有限的资金与那些巨头支持的公司竞争,比如NVIDIA、OpenAI支持的Figure AI、Physical Intelligence?听起来你没有这个苦恼,对吧?
Ben:是的,我们没有。我决定的方式是成为Mark Andreessen的邻居哈哈( K-Scale Labs距a16z创始人Mark Andreessen家仅3分钟车程)。我不太担心融资,对于任何雄心勃勃的项目,外面都有足够的资金。真正缺少的是那些想要专注于某件事并有能力执行的非常聪明的人。这是我的主要关注点:建设一支具备这些品质的团队。
许多人固执于融资,但我真地不认为这是实现突破性结果的限制因素。即使像特斯拉这样规模的企业,以及像Figure AI和Physical Intelligence这样资金充足的公司。我在那里工作过,也了解这些圈子。你可以往任何事情上砸钱,但这并不能保证成功,专注和方向才是最重要的。
这就是为什么Elon是一个如此优秀的CEO,因为他能够提供那种专注。但我认为对于Optimus来说,这一点还没有做到,这为我们提供了一个脱颖而出的机会。
硅星人:既然提到工作经历,是什么促使你在离开Meta和特斯拉后决定创业,这是如何发生的?
Ben:真正触发我的是在Meta时,我看到了一个AI生成的坎耶·韦斯特声音演唱"Hey There Delilah"的演示。我查看了代码,发现是基于我两年前共同撰写的一篇开源技术论文。这真的让我醒悟过来,意识到现在是时候了。
过去AI是一个研究问题。但ChatGPT兴起之后,更多非AI研究人员,包括普通人对使用AI感兴趣。所以我感觉这是一个完美的时机,可以尝试出去做一些真正伟大的事情。
具体到K-Scale Labs,我一直希望有人能创办这类公司,却没看到有人这么做。本质上,你需要一个人像胶水一样,把中国优秀的制造能力和硅谷开发的最先进模型连接。我没有看到谁正确地做这件事,就想,不如我自己来做。
硅星人:你在Meta和特斯拉也一直从事基础模型研发,那些与你现在的工作有何联系?
Ben:我在Facebook主要做一些通用研究,在特斯拉专注于自动驾驶系统。我其实在Facebook有两段经历。第一次研究语音,第二次是机器人控制。语音工作主要是语音表征学习,即如何从未标注的语音数据中构建有用的表征?我认为这对其他模态也很有意义。第二次我构建了一些 NeRF模型来做语义和可供性映射,就是让机器人能导航到语言目标。比如你说“去找冰箱”,它就会通过匹配对环境的理解来定位。
不过我要说,这种方法与我们在K-Scale做得很不同。我不打算做那种显式的表征,拥抱更多的隐式和端到端方法。
在特斯拉,我做了几件事:其一是体素占用网络,这曾是特斯拉自动驾驶的主打模型。这个项目是我和我朋友Patrick开始启动的,还有另一个同事Nishant。因为特斯拉几乎没人喜欢写CUDA代码,所以我们初始版本运行得非常慢。于是我编写了CUDA代码让它提速1000倍。这给Andrej留下了深刻印象,他很喜欢这种东西。后来这个项目由其他人接手,但我想他们现在可能还在用那些CUDA内核。那是我最大的技术贡献,很棒。
另一个项目涉及开发用于车道预测的transformer模型。我们训练了一个模型来预测特斯拉车辆的路径点。我重写了模型的导出管道并实现了量化技术。一旦成功部署,它允许我们用端到端的学习解决方案替换一些C++组件来简化汽车的代码库。
这种经验作为我们当前工作的哲学先驱,强调减少控制代码,转而采用基于学习的方法。部署模型是一个漫长的过程,涉及广泛的训练后调整和对训练过程本身的修改。它提供了真实世界机器人技术的宝贵经验。
硅星人:对于机器人的基础模型来说,这个领域今年发生了巨大变化,你怎么看?K- Scale和其他公司,比如你提到的Physical Intelligence和Skilled AI相比,有什么不同?
Ben:我们在K- Scale想认真对待这件事,真正建立一个良好的业务。这可能就是我们与其他筹集了大量资金的公司区别所在。很多人都在谈论机器人基础模型,甚至有些人可能并不真正理解这意味着什么。但在训练模型或进行任何产品开发之前,你真地要知道为什么这样做,以及如何评估你是否做得好。
我认为我们与其他公司的不同之处在于,我们建造了自己的机器人,并试图将其视为一个产品开发过程。从这个角度来看,比起Physical Intelligence或Skilled AI,我们可能更接近像1X或Figure这样的公司。
我的观点是,如果你想真正知道你的基础模型能做什么,你需要专注于交付一个产品。而不是只训练一个模型,然后期望它对所有事情都有用。因为你不仅要考虑模型架构,还要考虑如何收集数据,以及如何创建有用的数据反馈循环。
而我们与1X、Figure这些产品类公司的不同之处在于,我们专注于避免自动驾驶时代的错误。在那个时代,很多人筹集资金去建立高运营支出的模式。当和风投谈话时,如果告诉风投:“相信我们,只要给我们1亿美元,我们就会去雇佣一堆数据标注员,然后突然就能解决自动驾驶问题。”这对风投来说是一个容易接受的说辞。他们只需要判断你是否在说大话,而很多风投在这方面并不擅长。
问题是,这并不是真正的产品开发,工程工作远非线性的。所以K-Scale希望形成一个非常专注的工程团队,将产品推向市场,与客户一起迭代。同时也要负责任地经营,比如确保在产生实际收入之前,不累积大量的运营支出,确保雇佣合适的角色,而不是为了雇人而雇人。这就是我的看法。
硅星人:是的,据Physical Intelligence所说,他们只做软件不做硬件。但你们是把两者结合起来,将其视为一个产品,然后开发迭代。
Ben:对。我认为Physical Intelligence试图成为机器人界的OpenAI。老实说,这对风投来说是一个非常性感的说辞。但是机器人更昂贵,也不灵活。像OpenAI能够长期研究然后突然推出ChatGPT,立即获得数十亿美元的收入。这之所以可能,唯一的原因是大语言模型与产品之间的差距非常小,所以很容易想象。
Physical Intelligence,或者说整个机器人领域面临的问题在于,将AI模型应用到现实世界中要困难、复杂得多。我觉得自己可以有些权威地谈论这个,因为我们确实在尝试制造机器人。让机器人工作的难点是什么?至少现在不是模型。还有很多工程侧的细节非常重要。
把机器人产品推向市场要比LLM困难得多。你可以用几个人就基本上完成LLM,我不知道多少人开发了ChatGPT,但它基本上算是一个副业项目。但如果你想真正将Physical Intelligence这个概念商业化,你必须像特斯拉一样有个单一的业务。
我认为我们能做到的原因是,它恰好利用了现在很多中国公司正在制造先进人形机器人这一趋势。如果我们能够加以利用来使产品可行,那么我们会有一个很好的未来。
硅星人:除了你提到的这些,你认为机器人领域还有什么挑战?收集数据是其中之一吗?
Ben:问题在于如何收集正确的数据。我会说,在机器人领域胜出的公司,将是能够将用互联网规模数据训练的大型多模态模型转化到现实世界中的公司。这说起来简单,但具体怎么做还不是很清楚。我认为这是每个人都在关注的。
硅星人:你们网站上列了三个主要合作伙伴,除了英伟达之外,还有两家中国公司。你们是如何相互合作的?
Ben:我去过苏州的脉塔智能(Myactuator)参观,我们所有的执行器都是从他们那儿购买的。他们也和我们一样是家初创公司,所以合作非常令人兴奋,他们有很好的干劲。我们的目标是帮助脉塔智能建造他们自己的人形机器人并推向市场。他们将100%拥有它。
另一家公司seeed studio,他们有开源电子产品。我们正在设计一款PCB,基本上想让他们帮忙做合规性检查,这样我们就可以直接从他们那里购买。此外我们在东莞也有几个非常好的制造合作伙伴。
硅星人:我知道中国有很多人在尝试制造人形机器人,他们在硬件方面做得很棒,但需要一些软件支持,非常希望和硅谷的公司合作。
Ben:哦,快把我的邮箱给他们!这正是我们想合作的对象。我们可以开发软件,但我们不能制造所有硬件。这是结合双方优势的最佳合作关系。
硅星人:话说你刚从中国商务旅行回来,对其它中国机器人公司,比如宇树(Unitree)有什么了解吗?
Ben:我真的很喜欢宇树,我认为宇树会是很长一段时间内最好的人形机器人硬件。王兴兴是个了不起的工程师。我和他聊了一会儿,他也给我演示了一些东西。我的中文水平有限,他只说中文。但他太聪明了,没必要学英语。他的整个大脑都专注于制造好的机器人,这才是更好的用途。
我的想法是,人形机器人是每个人的项目,成功后将是人类历史上最具颠覆性的技术。我希望我们能建立一些人们赞赏的好东西。我喜欢中国硬件公司的一点是,他们大多数都有同样的态度,认为最终是要做好工作,建造好的东西,而不仅仅是销售或空谈。
硅星人:所以你认为机器人领域的情况或许和AI有点不同,不同国家的人们也可以合作完成一些事情。
Ben:我要说的是,我妈妈主要住在中国,她现在就在北京。所以我希望美国和中国能保持长期良好的关系。我个人喜欢和工程师交谈,因为大多数工程师只想做伟大的事情,中国就有很多这样优秀的工程师。
我上大学时曾去桂林旅行,经香港在深圳停留。那是一次令人难以置信的经历。你知道深圳的那种建筑类型吗?就像电子产品超市…
硅星人:华强北?
Ben:对,华强北!它有点像旅游景点,那里太神奇了。作为一个工程师,我感到非常兴奋,美国没有类似的地方。
我认为竞争的重点是让每个人都变得更好,而不是为了保护懒惰的人。美国历来不是一个懒惰的国家,可我现在从美国人那里感受的态度有点变成“哦,我们需要避免竞争”——为什么美国害怕面对竞争?
所以本质上如果有一件事我在乎,那就是创造伟大的东西。我宁愿每个人都专注于竞争制造伟大的东西,而不是去互相伤害。
硅星人:最后,你能分享一下K-Scale最近的新闻或更新吗?你的路线图上接下来有什么计划?
Ben:我们有一个全新的金属机器人,将在接下来几天内发布设计。下一个重要里程碑将在Hacker News上发布。因为我们是YC系公司,所以在Hacker News上发布是一个接触大量爱好者的好机会。
我们的目标是到那时能有一个机器人,人们可以直接购买套件或全套解决方案,可能会在10月左右。这就是我们现在全力关注的事情。
硅星人:你对未来的市场有什么期望,10亿机器人吗?
Ben:是的哈哈。但在那之前,我妻子有个习惯——她是医生,所以很忙没有时间。她总爱喝很多可乐,然后把可乐罐到处乱放,而我总得要去清理。
硅星人:所以你想要一个机器人来帮你做这件事?
Ben:嗯,一个清理可乐罐的机器人。而且因为她现在住纽约,我希望机器人可以看家,确保安全。我想如果我有这些问题,那么其他人应该也有这些问题。
封面图源:硅星人。左为Paweł Budzianowski,右为Benjamin Bolte
微信扫码关注该文公众号作者