首个 AI 程序员 Devin,现身明星创业公司内部群。
为解决一个技术问题,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。
对话之专业,围观者看了直呼这个世界太疯狂。
事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。
Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。
此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲。
对话的开始,AI 程序员 Devin 正在询问有关 Modal Lab 平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。
Devin 表示自己已经查阅了文档,包括密钥和环境变量指南、CLI 命令参考、API 参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息。
Devin 询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。
人类 CTO 解释说,当密钥更新时,他们不会使已经运行的 Modal 容器失效,但是新启动的容器将会读取更新后的值。
Devin 对此表示感谢,并决定暂时采用手动方法来管理 Modal 中的密钥,即在需要时调用 modal deploy 命令来触发相关应用程序容器的重启。
看完整个过程后,同样是 AI 创业者的 Raunak Chowdhuri 评价到:
发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。
Devin 更多实测结果
拿到 Devin 早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。
热衷 AI 的沃顿商学院教授 Ethan Molick 试过后,认为其新颖的实时交互方式是最值得关注的。
您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。
在测试中,Ethan Mollick 要求 Devin 开发一个解释“创业公司融资中的股权稀释”的网站。
不过他透露,AI 还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。
要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。
另一位晒出测试过程的创业者 Mckay Wrigley 更激动一些。
在他晒出的 27 分钟测试中,只发了一个 GitHub 连接,让 Devin 部署来自开源项目的代码。
Devin 自主把任务拆解成一系列子步骤,并一步步开始执行。
执行过程中,Devin 在安装 Supabase 数据库时遇到了障碍,自己打开了对应的 Github 仓库开始查阅文档……
从后续终端反馈中可以看出,Devin 查到了运行 Supabase 所需的各种端口和密匙都应该填什么。
(装过的都知道,雀食挺麻烦……)
与此同时,Devin 还在根据实际情况不断修改自己的后续计划。
一段时间过后,一个本地的聊天机器人程序就跑起来了。
测试一段时间后 Mckay Wrigley 认为,Devin 已经可以算 Agent 的 ChatGPT 时刻。
复现 Devin 计划 ing
Devin 这边大伙还在接连测试,另一边开源“复现”方案也在进行中……
这不,GitHub 三万 Star 项目 MetaGPT 就上新了“开源版 Devin”。
名为数据解释器(Data Interpreter):
同 Devin 一样,Data Interpreter 也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站……
比如从英伟达股价数据中分析收盘价格趋势:
分析数据预测葡萄酒质量:
除此以外,阿里 Qwen 成员 Binyan Hui 等人开启了 OpenDevin 项目,刚刚起步已获得 1.2k Star。
Binyan Hui 发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。
同时项目团队也在招新成员:
另外,还一个名为 Maisa AI 的团队推出了 Maisa KPU(Knowledge Processing Unit),被网友认为与 Devin 有一些竞争。
目前 Maisa KPU 处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下:
根据 demo 展示,KPU 可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题:
Devin 基准测试技术报告发布
最近,Devin 创始团队 Cognition 还发布关于 SWE-bench 测试的技术报告。除了之前已公布的测试结果之外,团队还透露了一些新消息。
比如,Cognition 的目标之一是让 Devin 这个专门从事软件开发的 AI 智能体能够成功地为大型、复杂的代码库贡献代码。
选择在 SWE-bench 上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。
此外,研发团队还透露,为了防止 Devin 在测试中作弊,比如查找外部的 pull requests 信息,测试已做相关设置,确保 Devin 无法访问相关信息,并且在此过程中也已人工手动检查了 Devin 运行情况。
最后团队强调 Devin 仍处于起步阶段,还有很大改进空间:
更多细节感兴趣的家人们可查看报告详情。
Devin 发布不到一周,网友们的讨论已十分热烈。比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。以后 Stack Overflow 上都是各种 Devin 在提问,人,就只能被挤出去(Stack Overflow 危!!!):
有网友回应(手动狗头):
它们可以互相回答问题。
还有网友发现 Devin 背后团队 Cognition 正在招全职软件工程师,于是缓缓打出一个问号:
Devin 不是应该填补这些职位空缺来为他们省钱吗?
最后,若 Devin 公开你会想用它干点啥?
参考链接:
-
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
-
[2]https://x.com/raunakdoesdev/status/1769066769786757375
-
[3]https://twitter.com/emollick/status/1768742585122558063
-
[4]https://x.com/mckaywrigley/status/1767985840448516343
-
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20
本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨 西风