Bendi新闻
>
前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

前 LangChain 员工爆料更强的 Devin 2.0 要来了?所以,“世界首个AI程序员”到底造假没?

6月前
整理 | 褚杏娟

3 月份,有着“世界首个 AI 程序员”的 Devin 横空出世,立刻就被大家追捧。据报道,Devin 可以规划和执行需要数千个决策的复杂工程任务,并回忆每一步的相关背景,随着时间的推移学习并修复错误。一时间,各个程序员们心里慌慌。

近日,前 LangChain 员工 Andrew Gao 在网上爆料了即将上线的 Devin 2.0 新功能。

首先,启动交互模式以帮助 Devin 浏览网络。如果被卡在图片验证码之类的东西上,那么它非常有用。诚然,它有些慢(他们承认这一点),但它工作得足够好,能够做出点击动作。

其次,之前大家抱怨的使用 Devin 无法干预和编辑代码,现在可以通过启动 Web VSCode 来执行此操作。

另一个更新则是 Cookie,它让 Devin 能够使用用户的帐户登录网站,而无需向 Devin 提供用户密码。PhantomBuster 也做了类似的事情。

Andrew 举了个例子,他让 Devin 在 DoorDash 上订购鸡翅, Devin 很好地找到了店铺 Wingstop、选择了鸡翅以及操作各种复选框......

Devin 现在似乎更擅长编写网站:


Devin 还新增了“机器快照”功能,机器快照可以让用户保存 Devin 的状态,这样当服务器关闭时,用户可以再次启动。

Devin 还支持与 GitHub 集成,可以让 Devin 进行提交。

不过需要注意的是,Devin 背后公司 Cognition 并未正式发布上述功能。

创始人最新访谈,
闭口不谈造假风波

对于 Devin 来说,最火的时刻有两个:一是 3 月 13 日刚发布时,二是两周多后被指造假时。

就在上个月初,一位自称有 35 年软件工程师经验的网络博主卡尔质疑 Devin 造假,卡尔逐帧复现了 Devin 的演示视频并提出质疑,主要包括以下方面:

  • Devin 被认为能够解决任意 Upwork 任务。但在视频演示中,要求解决的问题与客户规定的要求(客户要求设置说明,而不是代码)不符;

  • Devin 正在修复 GitHub 存储库源中的错误,但它所编辑的文件实际上并不存在于该存储库中,而且它修复的一些错误是无意义的,属于人类永远不会犯的类型。推论:Devin 一定是在修复它自己创建的文件中的错误,但没有明确指出;

  • EC2 部分不需要进行任何编码,因为存储库中的自述文件包含完成任务所需的所有说明,只需一行调整即可正常工作,即使存储库是旧版本。这就是为什么客户要求提供有关如何在 EC2 上运行的说明,而不是一些编码要求。Devin 似乎没有阅读 README,也不明白它只需要执行几个预先存在的 Python 脚本。视频中的输出看起来任务很复杂,有很长的计划和许多显示工作已完成的复选框,但实际上这项工作毫无意义且多余;

  • Devin 的代码更改很糟糕,例如编写自己的低级文件读取循环而不是正确使用标准库;

  • 虽然视频看起来 Devin 很快就完成了任务,并且视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示该任务持续了多个小时,甚至持续到第二天;

  • Devin 执行无意义的 shell 命令,如“head -n 5 foo | tail -n 5”。

卡尔认为,Cognition Labs 夸大了 Devin 的能力,视频描述和推文中存在谎言,造成混乱和误解。卡尔建议,不要在未经适当研究的情况下盲目重复和放大网上发现的主张。

“几乎没有任何人工智能产品能在经过大肆宣传后的几周后,依然表现让人满意。”有网友评价道。

虽然人们非常期待 Cognition 能对这些质疑进行回应,但截至目前该团队都没有做出解释。我们只能在 4 月中旬,Scott 的推特中隐约看到他对 Devin 缺点的态度:今天的 Devin 还远非完美。Devin 经常工作,但也经常犯错误、编写错误或陷入困境。

5 月 2 日,Scott Wu 参加的不到 30 分钟的采访视频发布。Scott 在视频里表示,未来工程师并不会因为 AI 减少,反而会越来越多。首先,AI 会对工程的需求变大,“很多问题可以用代码解决,也有很多问题可以用代码构建”;其次,Devin 不是决定做什么的人,使用它的人应该知道要构建什么、解决什么问题等,因此他认为 Devin 只是让工程师更加纯粹。

Scott 认为,Devin 更加擅长的领域在 Devops 和 Dev 设置方面。“Devin 第一个真正让我们兴奋的时刻是数据库表旋转、Kubernets 启动时。” 另一个很好的用例则是数据分析。Scott 强调,Devin 是执行者,它的重点是如何准确理解需求后将其表述为代码并做到。

“他们给了他一切机会来回应对视频的批评,但他一直回避。他没有说任何实质性内容。这次采访并没有激发人们对他的公司的任何信心。”有网友在采访视频下评论道,甚至有人调侃称,“加密货币诈骗者接受加密货币诈骗者采访。”

当然也有力挺的网友,“在这里看到这么多仇恨者真是太疯狂了。Scott 建立了一支非常优秀的团队,并正在开发一款革命性的产品。”

根据 Linkedin 显示,该公司目前有超过 35 人的员工,上面各项动态依然停留在 Devin 刚发布那天。

“无法透露更多细节”

Cognition 公司拥有三位创始人:CEO Scott Wu、CTO Steven Hao 和盒首席产品官 Walden Yan。

Scott Wu 自述自己 9 岁起开始编程,并且非常热爱将自己的想法变成现实的感觉。还有人挖出了 Scott Wu 在 14 岁时参加 MathCounts 比赛的视频。在比赛中,Scott Wu 回答奥数问题基本不需要多少思考时间,主持人念完问题,Scott Wu 马上能报出答案。

Hao 此前曾担任 Scale AI 的顶级工程师,这同样是一家价值可观的初创企业,专司 AI 系统的训练工作。Yan 则刚刚从哈佛大学退学,他要求对此事保密,因为自己还没跟父母通过气。创始人还自述团队共有 10 枚 IOI 金牌。

这样的团队已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社报道,前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。

但 Cognition 如何在如此短的时间内取得重大突破仍然是个未解之谜。

Scott 拒绝透露太多关于该技术的底层细节,只表示他的团队找到了将 OpenAI GPT-4 等大语言模型(LLM)与强化学习技术相结合的独特方法。Cognition 方面也拒绝透露 Devin 在多大程度上依赖于其他现有大语言模型。

Scott 在访谈中也依然表示不能透露更多关于 Devin 如何运行的细节。

所有涉及运行实现的部分,整个 Cognition 团队都三缄其口,增加了神秘感的同时也让外界对其更加怀疑,毕竟“Talk is cheap,Show me your code”已经成为大家共识。

参考链接:

https://twitter.com/itsandrewgao/status/1786617554724921641

https://www.infoq.cn/article/WXRuf4M0fOibdRIEleJf?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

https://news.ycombinator.com/item?id=40008109

https://www.youtube.com/watch?v=OvBiqmcnjHY

 内容推荐

探索智能科技的新边疆,《2024 年第 1 季度中国大模型季度监测报告》正式发布!OpenAI Sora 大模型和 NVIDIA Project GR00T 的发布、人形机器人的突破以及编码智能体的到来,正开启 AI 大模型的新纪元。在开源与闭源并行的新趋势中,AIGC 写作和 PPT 制作工具的测评展示了 AI 在内容创作和视觉呈现上的巨大潜力。InfoQ 研究中心邀您一同见证 AI 浪潮如何塑造未来🚀。欢迎大家扫码关注「AI 前线」公众号,回复「季度报告」领取。

 活动推荐

AICon 全球人工智能开发与应用大会暨大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。


今日荐文


26岁带着百人团队冲刺大模型,面壁智能天才CTO:高效比参数更重要


神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了


李飞飞首次创业:瞄准空间智能;巴菲特股东大会谈AI:与核武器相似;69岁比尔·盖茨被曝主导微软OpenAI联姻 | AI 周报


你也「在看」吗?👇

微信扫码关注该文公众号作者

来源:AI前线

相关新闻

「Ilya究竟看到了什么?」泄密被OpenAI解雇的前员工长文爆料:2030年超级人工智能将至财经早参|美政府债务突破35万亿美元大关;员工爆料“私生活”?东证期货回应;盛李豪成巴黎奥运首个“双金王”三位OpenAI前员工联手创办,李飞飞等大佬投资,“机器人界的GPT”要被亚马逊收购了?“打飞的”出行真的要来了?AI 走上研发岗,谁比程序员更先“翻车”?| 直播预告可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了重磅!加拿大官宣:“在北美读大学,自动送绿卡”!留学生的春天要来了?!vivo X100 Ultra 首发的「蓝图影像」,到底强在哪?淀粉肠“塌房”了?来聊聊淀粉肠的三个核心问题《花儿与少年5》收视破亿!这个观众要求“加更”的小众仙境终于要火了?冷!达拉斯今日起连续10天“零下”模式,周一的降雪真的要来了?人人人人,“在大量人群中发现少量景色”“挤到怀疑人生”!近百万人挤爆西湖,每个城市都“来了1亿人”?AI元年的职场:“狼”来了,然后呢?轰-20真要来了,“六爷”的传奇终于要落幕了?「国产版」GPTs 来了?体验字节跳动的「扣子」后,我发现它比 GPTs 强在这一点突然涨停!胖东来要“改造”永辉,从这两家店开始?此前“爆改”步步高,单店日销从15万元增至百万+第一波收割完的 AI 创企要跑路了?6 年来仅做了一款产品,问世 30 天就彻底失败,Ai Pin 公司 10 亿美元求“卖身”“魔都最高薪酬”请来了什么样的老师?包校前校长吴子健的新高中又发大招……“显眼包”都来这里上天了?联合国认证的世界艺术之都!冷门但惊艳的“最牛县级博物馆”!这座非旅游城市,既可放松又能遛娃!来点狠的?!白宫给自己挖了个“天坑”,中国:吃不下当心撑死!前谷歌CEO:AI崛起得靠“卷”和“抄”?朱啸虎三次投资的AI公司,引前员工围攻声讨;中国已有近8万家AI公司消失! | Q资讯一直爆料OpenAI「草莓」的账号,竟然是个智能体?斯坦福系创企「炒作」AgentQ奥运周边卖爆了,背后的中国工厂要如何接住这“泼天的富贵”?| 小纪奥运专栏火爆全球!新西兰又得两个世界第一!全网获赞无数的“新西兰松弛感”,到底哪里能找到?这篇文章告诉你!
logo
联系我们隐私协议©2024 bendi.news
Bendi新闻
Bendi.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Bendi.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。