100行代码打造编程Agent:能修复65%真实项目bug,适配所有大模型
henry 发自 凹非寺量子位 | 公众号 QbitAI
只用100行代码,打造最强轻量编程agent。
SWE-bench、SWE-agent原班人马再出手,推出全新开源项目——
mini-SWE-agent
不依赖任何额外插件,仅通过基础命令即可运行。而且对模型没有限制,几乎兼容所有主流语言模型,支持直接在本地终端中部署和使用。
而在如此精简的架构下,仅凭100行核心代码轻松解决SWE-bench上65%的问题。
这个65%是啥水平呢?
也就和原版差不多吧~(关键人家还轻量啊)
网友:厉害
百行代码,实力不打折
SWE-agent是一个开源项目(16.8k GitHub Star),它的目标是让agent自动修复GitHub上真实项目中的代码Bug
不过,原版的SWE-agent基于LangChain构建,从接受issue、理解问题、编辑代码、到提交PR,涉及多工具、多轮对话管理,任务流程繁琐。
除此之外,开发者要跑通还需要安装多个依赖,精调工具调用逻辑,而且项目代码动辄上千行,对模型、环境的耦合也比较强。
而随着语言模型性能越来越强大,构建一个有用的代理已经不再需要这些工具和接口了。
由此,团队开始思考:能否让SWE-agent小100倍,并保持原有的性能。
mini-SWE-agent由此而来。
那么,相较于SWE-agent,mini-SWE-agent有什么不同呢?
极简代码和依赖:mini-SWE-agent本身仅约100行Python代码,加上环境、模型、脚本才共约200行,没有复杂的依赖关系。
取消工具调用接口:mini版本不集成专用的代码编辑、搜索等工具;它只使用操作系统的Bash环境执行命令。每一步由语言模型输出一个完整的shell命令,不通过独立的“tool call”协议,从而可兼容任何语言模型。
线性历史记录:agent的每一步都只是附加到消息中。
独立单步执行:每条命令通过Python独立执行,并非保持一个持续的shell会话,这使得在沙盒中执行操作变得非常简单,并且可以轻松扩展。
简化配置与接口:取消了SWE-agent依赖的复杂YAML配置;mini-swe-agent采用代码内置模板,并提供直观的命令行工具。用户可以通过mini命令快速启动代理,或使用mini-v启动可视化界面。
多样的运行环境支持:除了本地Shell,mini-swe-agent还内置支持多种容器与虚拟化环境(如Docker、Podman、Singularity、Apptainer等),这意味着开发者可以在不同平台和容器中轻松部署,而无需额外修改代码。
保留高性能和工具:虽然架构极简,mini-swe-agent在SWE-bench验证集上仍能解决约65%的问题。同时,它附带批量推理(batchinference)、轨迹浏览器(trajectorybrowser)等工具,帮助用户进行大规模评测和决策分析。代理还提供可视化界面,方便开发者交互式地观察执行过程
此外,对于应在何种场景下使用 SWE-agent 或 mini-SWE-agent,团队也根据不同的需求给出了建议:
mini-swe-agent更适合希望快速本地运行、追求简洁控制流和更稳定评估环境的用户。它非常轻量,适合用于微调(FT)或强化学习(RL)等实验,不容易陷入对复杂框架的过拟合。
如果你需要高度可配置的工具链、更复杂的历史状态管理,或希望通过修改YAML文件自由切换组件而无需动代码,那么功能更丰富的SWE-agent会是更合适的选择。
总体而言,mini-swe-agent体现了可读、方便、易扩展的开发理念。
对于日常开发者而言,它既可以作为简单的命令行工具使用。如在本地终端快速解决问题),也可以作为库被集成到其他Python应用中。
相比于重型框架,它降低了上手成本,让开发者可以像使用脚本一样灵活地“驾驭”智能代理。
One more thing
SWE-bench和SWE-agent是由John Yang、Carlos E. Jimenez、Alexander Wettig、Kilian Lieret、姚顺雨(OpenAI研究员,2015年毕业清华姚班)、Karthik Narasimhan和Ofir Press于2024年在普林斯顿大学发起的开源项目。
该项目推动了基于大型语言模型的软件工程代理(Software Engineering Agent)研究。
其中,SWE-bench一经发布后,就成为了评估大语言模型编程的经典benchmark,伴随SWE-agent一同提出的Agent‑Computer-Interface(ACI)则进一步定义了“智能体如何与计算机交互”的标准接口方式。
而这一杰出的想法最初仅仅来自一次20多分钟的讨论。
在Matthew Berman的播客节目上,Carlos E. Jimenez分享道:SWE-bench最初的想法源自他和John Yang在闲逛时的一次头脑风暴:
他们意识到,GitHub不只是一个存储代码的地方,更是一个活跃的协作开发平台,充满了真实的软件工程过程:用户报告bug,开发者提交修复,社区公开审核和合入。
相比传统的编程竞赛,这些交互和修改才是真正代表“现实世界编程”的任务。于是他们设想,能否把这种开源协作的过程结构化下来,变成一种评估语言模型能力的标准流程?
这便催生了SWE-bench,一个基于GitHub上真实Issue与PullRequest构建的benchmark,用来测试LLM是否能像人类开发者一样,理解bug报告并修复代码。
这个系统不仅更接近现实,也让模型的“开发能力”变得可观察、可比较,而SWE-agent则是他们为这一评估任务设计的开源agent,目标就是成为能在SWE-bench上“修最多bug”的AI程序员。
项目主页:[1]https://github.com/SWE-agent/mini-swe-agent[2]https://github.com/SWE-agent/mini-swe-agent?tab=readme-ov-file
校花脱了内裤打开腿让我爽
国产精品㊙️国产A级中出高清
🈲18大全免费
动漫❌c🐻黄扒衣服69-50
富婆老妇性按摩XXXHD
艾玛沃森裸体被❌视频网站
小舞开腿㊙️让人桶爽的小说
男同❌无尽❌高潮
體育生爽擼大雞吧黃片gv
国产精品亚洲AV三区八戒漫画
鞠婧祎裸体❌❌自慰
火车上荫蒂添的好舒服图片
慢脚文化免费观看网页
嗯~啊~乖~进去了~h~动漫
日本做受❌❌4777cos
国产➕高潮➕白浆➕芋圆
刘浩存裸被❌高清网站
抖音八酱的爆料网站免费
72式啪啪真人动态图大全
诛仙之婬魔1~6
18🈲🈲🈲在线观看
动漫美女被❌狂揉大胸羞羞网站
初女学生裸体写真集长春
国产精品久久久久久精品毛片爆乳
农村婬乱男女A片爽视频麻豆软件
成人🔞网站网页观看白浆要来了
蜜桃臀大胸美女裸露屁股运动
卡尔蜜拉自己扒开屁股让大雄雄桶
米塔裸体无遮挡
姬紫月张开双腿被强❌漫画
女学生裸体又黄❌❌
jzjzjzjz韩国人和日本人
男生把🐤深到女人的🍑
中国老富婆嫖鸭69XX
没考好被送入女子体罚学校
中国人GAY无套✅猛男视频
❤️香蕉漫画❤️入口
▓■成人丝瓜视频网站入口
动漫女仆装露内裤
老汪干雨晴
videos❌❌❌free夫妇
巴西性❌❌❌❌狂欢
成年裸J照无遮挡🔞视频
黄漫❌18禁漫画网站弱点
少女弹珠汽水1-4集樱花在线观看
太深拔出来痛太舒服男男
小芸回老家被爸爸睡电视剧简介
动漫美女被❌到爽流🔞
美女露出🐻给男生狂揉
梅根福克斯床戏被❌乳液
中国熟妇HD茸毛毛户外
孕妇光着屁股在床上生孩子视频
furry狼人下半身性器榨精
雏田爆乳被秘视频3D
拉拉中的t都怎样玩p的
罗丽解开胸罩喂给金王子吃
色啪啪97一区二区三区
全彩里番⭐️ACG里番本H
拨开学生湿漉漉的小内裤小说
美女cos西施❌到爽
男人的🍌伸到🍑屁股欧洲
男人把鸡大巴放进女人的屁股里
胸⋯啊⋯嗯~出奶了视频
男男+纯肉+超H污黄短篇段
MM131杨晨晨被❌嗷嗷叫
摸下面十八禁🔞高潮喷水图片
云韵让我❌她我爽了好久
少萝裸体🔞🔞🔞直播
小🐔🐔伸进🈲🔞🔞穿
野外撒尿无遮挡㊙️网站
女人被❌️到流水
两人上面2人下边A片
樱岛麻衣被❌吸乳羞羞网站视频
(总攻)帝皇的播种计划小说
工口里番H全彩肉啪啪
(越南女子别动队)免费
日本孕妇大胆孕交无码av
美女❌❌揉胸❌❌3d
护士献身取精A片无码
www.sao黄18福利姬
被女同学捏J亅惩罚憋尿
网友评论 查看所有评论>>