机器之心报道
编辑:+0
Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。
然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。
问题的关键,不只是让 AI 写出更优秀的代码,更是要教会它「察言观色」:在最恰当的时机提供帮助,在其他时候则保持安静。
基于此,Cursor 采用在线强化学习技术训练出一个全新的 Tab 模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。在每天超过 4 亿次请求的巨大流量驱动下,模型得以进行高频度的、基于真实世界反馈的持续学习。
Cursor 已将这个新的 Tab 模型设为默认版本。与旧模型相比,新模型提供的建议数量减少了 21%,但所提供建议的接受率却提升了 28%。此举旨在提升用户的编码体验,Cursor 也计划在未来继续深化这些方法的研究。
Cursor 的策略独特且高效:它每天多次向用户部署新模型(每隔 1.5-2 小时),利用实时数据进行快速训练和优化。
这与主流做法形成了鲜明对比。多数厂商仍在静态数据集上进行长周期训练,依赖人工标注,数月才发布一次新模型。Cursor 的模式则建立了一个超高频的实时反馈循环,是对传统模型开发流程的彻底颠覆。
这似乎又一次向我们证明了,谁掌握了数据入口,谁就掌握了 AI 进化的主动权。
该功能在 AI 社区也得到了非常积极的反馈,有用户表示这是 Cursor 当前「护城河」,并愿意为 Cursor Tab 单独付费。
还有开发者认为,它能大幅提升了生产力,不像 agent 那样只有噱头,而是「比其他任何功能都更能改善工作流程」。
另外,一条被「强化学习之父」Richard Sutton 转发的评论表示,Cursor 的这个做法意义重大,它首次大规模证明了「实时在线学习」的巨大威力,并且指明了 AI 未来的一个重要发展方向,尽管目前还不够完美。
Cursor 通过一篇博客介绍了他们如何利用这些数据,通过在线强化学习技术来优化其 Tab 模型。
博客地址:https://cursor.com/cn/blog/tab-rl
「干扰性建议」的挑战
要实现高接受率,不仅需要提升模型本身的智能水平,更关键的是要判断何时应提供建议,何时应保持静默。在某些场景下,上下文信息不足以准确判断用户的意图。即便模型具备完美的知识和推理能力,也无法预知用户的确切操作。在这些情况下,不提供任何建议是更优的选择。
为提升建议的接受率,一种直接的思路是训练一个独立的分类模型来预测建议是否会被采纳。据 Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此种策略。它通过一个逻辑回归模型计算「上下文过滤分数」,该模型接收 11 个特征作为输入,涵盖了编程语言、前次建议的采纳情况、光标前的字符序列等。尽管该模型的确切预测目标未知,但外界普遍猜测其旨在预测建议被用户接受的概率。当该分数低于 15% 时,系统便会跳过此次建议。
该方案虽然可行,但 Cursor 的团队希望寻求一种更通用的机制,以便能复用 Tab 模型自身学到的强大代码表征能力。他们希望从根源上让 Tab 模型避免生成质量不高的建议,而非仅仅在事后进行过滤。因此,他们最终选择了策略梯度方法。
策略梯度方法
策略梯度是一种通用的优化框架,其目标是调整「策略」(在此即 Tab 模型),以最大化「奖励」(Reward)。奖励是一个被赋予策略所执行的每一个动作的数值。通过策略梯度算法,可以持续更新策略,使其在未来能够获得更高的平均奖励。
该类算法的核心思想是:允许策略进行探索性的随机尝试,观察不同行为所带来的奖励高低,然后对获得高奖励的行为进行正向强化,对导致低奖励的行为进行负向强化。
为了运用策略梯度方法优化 Tab,团队定义了一个精巧的奖励函数:鼓励被采纳的建议,同时惩罚那些被展示但未被采纳的建议。
例如,假设目标是当建议的接受率不低于 25% 时才进行展示。那么,可以为被采纳的建议设定 0.75 的奖励,为被拒绝的建议设定 -0.25 的奖励,而未展示建议的情况奖励为 0。如果一个建议的真实接受概率为 p,那么展示该建议的期望奖励就是。该值仅在 p>0.25 时为正。因此,一个旨在最大化奖励的策略,将学会在其预估接受率超过 25% 时才给出建议。
在实际应用中,Cursor 使用的奖励函数更为复杂,还考虑了建议的长度、代码跳转以及展示更多建议的可能性等因素。但其核心理念是一致的:并非直接对接受率进行建模,而是学习一个能够达成特定接受率目标的策略。
可以推断,模型在其内部表征中自发学习到了对接受概率的评估(或至少是评估其是否超过 25%),而这个过程完全交由优化器自行探索。
同策略(On-Policy)数据的重要性
然而,该方法有一个关键前提:用于计算梯度的动作样本,必须来自于当前正在优化的策略。一旦策略被更新,旧的数据便不再是「同策略(On-Policy)」数据。
为了获取最新的有效样本,就必须将新模型部署给用户并收集其行为数据。这意味着需要一套高效的基础设施,以快速部署新的模型检查点,并缩短从用户产生数据到数据进入下一轮训练流程的时间。
目前,Cursor 推出一个检查点并收集所需数据需要 1.5 到 2 小时。尽管这在人工智能行业已属高效,但仍有进一步优化的空间。
Cursor 这次更新让你心动了吗?
《神里绫华的奖励》,《w3u7903ejky2ywls》把手伸到胡桃的🍑涩涩
“教师美妇1~180无删减版漫画”
小樱同意让博人吃饺子
……
09月20日
“王者同人18❌动漫免费网站”我爱上的人是奇葩 第五季
↓↓↓
09月20日,香港青年话“五四”:当“壮志凌云”遇上中式队列,jk漫画禁漫♥成人入口,女人脱个精光㊙️亲嘴学生,哈爽好深顶到了双男主,久久成人秘18免费网站明星
09月20日,市场监管总局发布合规提示 规范“双11”网络集中促销经营活动,丝袜老师踩我的🐔出精漫画,原神美女裸体被❌羞羞网站,男男宝贝~含着它尿了微博,卡尔蜜拉之乱婬h侵犯小说
09月20日,山西古建筑100问——全国仅存的唱经楼何以成为科举文化的最后见证?,3D小舞裸体抖乳,野原琳乳暴❌自慰naruto,杨晨晨被❌到嗷嗷叫,王者大乔cosply
09月20日|【世界说】枪支暴力让美国儿童面临终身挑战:残疾、心理创伤和经济负担|Hentai❌全彩无码|蝴蝶忍被爆❌自慰爽|18🈲白浆自慰|美女张腿让我❌了一夜
09月20日|为推进中国式现代化注入强大动力——习近平总书记同出席2024年全国两会人大代表、政协委员共商国是纪实|我c了白丝班花一节课|动漫少萝裸体🔞🔞🔞视频|成人夜晚看Av❌❌❌戴避孕套|学生双腿白浆抽搐高潮h珠内裤
09月20日|新疆昆玉市300吨反季甜瓜上市俏销|阿离被扒开双腿乱桶|学生上课自慰|女子撒尿全过程㊙️免费网站|欧美人与禽猛交乱配视频……
09月20日,让善行接力 让爱心传递(暖闻热评),91丝袜兔女郎❌羞羞游戏,女人自述25厘米进去爽快,卫诗雅被揉到高潮下不了床,云韵裸身❌❌
09月20日,德总理朔尔茨与乌总统泽连斯基通电话 就乌军事和人道主义局势交流,快灬快灬一下爽蜜桃,胡桃裸体㊙️无遮挡Coc,哎呦绅士提醒您为了身体健康请适度,日本被❌到爽🔞奶头游戏
09月20日|英国首相斯塔默召开“眼镜蛇”紧急会议应对骚乱|女侠裆部被各种刑具折磨小说|免费无遮挡🔞视频网站双倍快乐|7u8e婷婷|成人🔞禁网站在线观看
09月20日,第二届链博会将启 境外参展商美企居首,美丽妈妈大狼狗小说,爽躁多水快深点白洁视频,欧美激情无码❌❌❌翘臀喷水呻吟,赫敏被哈利扒开双腿猛c作文
09月20日,广西三江:侗族大歌节欢度“二月二”,男捏女胸动态图吃奶动态,小乔跪着撅着白嫩光屁股被打作文,❌点🔴w🛑㸔🅱️片❌,女同学被❌到爽🔞91动漫
09月20日,2024上海市防范打击非法金融“五进”系列宣传在沪启动,男女自慰✅免费,小樱裸体被❌羞羞漫画免费,憋尿白丝小肚子凸起高冷知乎,女被❌c🐻黄扒衣服蘑菇视频
09月20日|中方:对加沙平民的杀戮必须停止,对巴勒斯坦人民的不公必须纠正|浴室里强摁做开腿呻吟动态图|污成人精品㊙️入口aV|jojo徐伦自裸体同人污图网站|扒开甘雨❌狂揉❌难受3d游戏
09月20日|四川蓬安:花田舞龙迎“龙抬头”|农村男娃自慰h初精|我奶头㊙️黄漫|奶头被嘬大了H周婉莹|同桌上课揉我下面啊嗯动漫
09月20日|煤炭大县山西襄垣“变废为宝” 探路循环经济|迪丽热巴ai被❌视频无码网站|少司缘被❌羞辱打开腿小说|扒开小樱❌狂揉❌动漫|美女露🐻给男生玩视频
少年歌行,缅北电诈四大家族覆灭|类蜘蛛机器人或可用于探索火星洞穴|倪萍的裸体色情照大全|久久久久久婷婷精子窝|小受被强行啪到腿软哭叫视频|虽然不是我的菜与姐姐超默契
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺