威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

字节Seed首次开源代码模型,拿下同规模多个SOTA

2025-05-11 16:59:33
来源:

猫眼电影

作者:

比亚比亚尼

手机查看

  猫眼电影记者 吕庆昌 报道w3u7903ejky2ywls

克雷西 明敏 发自 凹非寺量子位 | 公众号 QbitAI

字节Seed首次开源代码模型!

Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。

它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。

通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力。

这可以被视为对DeepSeek-R1模型自我生成和筛选训练数据策略的扩展。

一共包含三个版本:

BaseInstructReasoning

其中,Instruct在编程方面表现出色,拿下两个测试基准SOTA。

推理版本,在IOI 2024上超越了QwQ-32B和DeepSeek-R1。

模型上下文长度32K,使用6T tokens训练,并采用宽松的MIT开源协议,完整代码已发布在Hugging Face。

用模型管理训练数据

Seed-Coder的前身是doubao-coder,采用Llama 3结构,参数量为8.2B,6层,隐藏层大小为4096,采用分组查询注意力(GQA)机制。

最关键的工作是数据的处理,Seed团队提出了一种“模型中心”的数据处理方式,使用模型来策划数据。

具体来说,模型会从GitHub和网络档案爬取原始代码数据,经过几个处理步骤后输出最终的预训练数据。

Seed-Coder的过滤数据分为四个类别:

文件级代码:来自GitHub的单个代码文件,经过处理后保留了高质量的代码内容。仓库级代码:基于仓库结构的代码文件,保留了项目结构信息,使模型能学习到代码间的关系。Commit数据:GitHub提交的快照,包括提交信息、仓库元数据、相关文件和代码补丁,包括来自14万个高质量仓库的7400万次提交;代码相关网络数据:从网络存档中提取的包含代码块或高度代码相关的文档。

先看看代码的处理,在预处理阶段,系统在仓库和文件两个层级实施去重,SHA256哈希进行精确去重,并通过MinHash算法进行近似去重。

这种双层策略产生了两种变体的代码语料库——文件级变体用于短上下文窗口训练,仓库级变体保留了项目结构以支持更连贯的长上下文学习。

随后,系统使用Tree-sitter等语法解析器检查剩余文件,丢弃那些包含语法错误的文件。这个预处理阶段总共减少了大约98%的原始数据量。

在质量过滤阶段,Seed-Coder使用一个经过22万+份代码文档特殊训练的评分模型来过滤低质量代码文件。

评分模型以DeepSeek-V2-Chat为基础,评价指标包含四个关键方面:

可读性:包含合理数量的注释,遵循一致的命名规范,并遵循通用的格式和结构规范;模块性:结构合理,避免功能过于复杂或冗长,通过模块化实现逻辑功能清晰分离;清晰度:减少冗余,(如过多的函数调用、大段注释代码或调试打印语句),每个代码块的意图表达清晰;可重用性:没有语法和逻辑错误、避免过多硬编码数据、设计便于与其他项目集成、功能完整且有意义。

评分模型被要求给出一个从0到10的总体评分,并提供详细解释,之后将分数重新缩放到[0,1]范围,并使用1.3B参数的预训练Llama 2模型,通过回归头进行一个epoch的微调作为质量评分器。

最终基于这种评分方法,Seed团队过滤掉了得分最低的约10%文件,得到了支持89种编程语言、包含约1万亿个独特token的语料库。

再来是Commit的部分,Seed-Coder从14万个高质量GitHub仓库中收集了7400万个提交记录。这些仓库的筛选标准包括:至少100颗星、10个fork、100次提交和100天的维护活动。

每个提交记录都包含丰富的元数据,如提交消息、代码补丁、合并状态以及提交前的代码快照。

为了在预训练中有效利用这些数据,Seed-Coder将每个提交样本格式化为一个代码变更预测任务。给定一个提交消息及其相关上下文,模型需要预测被修改的文件路径以及相应的代码变更。

在进行去重和预处理后,Seed-Coder获得了约1000亿token的提交数据语料库用于预训练。

对于从网络获取的数据,Seed-Coder也提出了一个专门的提取框架。

在预处理阶段,框架对大规模网络档案进行高效预处理,并识别出两类原始数据:

第一类是HTML中带有明确代码标签(如…)的网页,这些可以通过标准规则直接提取;第二类是没有明确代码标签但可能包含代码或相关知识的数据,这类数据由于其体量和复杂性带来了提取挑战。

与GitHub数据处理类似,研究团队实施了精确和近似去重技术,并开发了启发式规则来在预处理阶段剔除明显的低质量文档(例如少于10个词的文档)。

在质量过滤阶段,框架采用两个互补策略来确保数据质量:首先是识别代码相关性,然后评估已识别内容的内在质量。

在代码相关性识别步骤中,研究团队首先从Common Crawl数据中抽取了1000万个网页样本,将具有代码特征的页面标记出来,建立评估数据集。

这个数据集中70%用作训练集,用于训练fastText模型来自动识别代码相关内容,剩余30%作为验证集来评估模型效果。

在质量评估步骤中,系统使用LLM对已识别的代码相关内容进行评分,评分标准采用0-10分制,评估内容的规范性、完整性和价值。

但在实际评估过程中,研究者发现不同类型网站的得分出现了系统性偏差:

文档网站、技术博客等由于格式规范、结构清晰,普遍获得较高分数;而技术论坛、问答平台等网站,虽然往往包含有价值的技术讨论和解决方案,但因其非正式的格式而得分较低。

为了解决这种评分偏差,研究团队对评分系统进行了优化——首先将网站按其内容形式和功能进行分类,然后为每类网站制定专门的评分标准和筛选阈值。

通过这套经过优化的双重过滤机制,系统最终构建了一个约1.2万亿tokens的网络数据语料库。

基于前面的四个数据类别,Seed-Coder的预训练分为了两个阶段。

其中,第一个阶段为常规预训练,使用的是文件级代码和代码相关网络数据,目的是构建模型的基础能力。

第二个阶段是持续预训练,使用所有四个类别的数据,并额外引入了高质量数据集和长上下文数据集,以增强性能并进行对齐,同时刺激模型理解长上下文数据的能力。

除了常规的next-token预测目标外,Seed-Coder还采用了Fill-in-the-Middle(FIM)和Suffix-Prefix-Middle(SPM)训练,分别增强上下文感知完成和中间内容能力。

基于基础模型,Seed团队还开发了Seed-Coder的两个特殊变体——

指令模型(-Instruct):目的是增强模型的指令遵循能力,其训练分为监督微调(SFT)第二阶段和直接偏好优化(DPO)两个阶段;推理模型(-Reasoning):目的是提升模型在复杂编程任务中的多步推理能力,采用长链条思维(LongCoT)强化学习训练。首先使用从编程竞赛问题和高质量模型生成的解决方案进行预热训练,然后通过GRPO框架实施强化学习训练。

这两个变体的设立,进一步扩展了Seed-Coder的实用性。

字节Seed最近更开放了

除了开源Seed-Coder外,字节Seed近期多个动作也都聚焦在了降门槛、开源开放方面。

比如在基础模型方面,发布了视频生成和推理模型。

视频生成模型Seaweed,70亿参数原生支持1280x720分辨率、任意宽高比和时长视频生成,效果超越140亿参数模型。

它强调了成本方面的优势,使用665000 H100 GPU小时完成训练,中小团队可部署,仅需40GB显存单GPU就可生成分辨率达1280x720的视频。

深度思考模型Seed-Thinking-v1.5,更轻量级、更少激活参数,在数学、代码等推理任务中超越DeepSeek-R1。

同时团队公开技术报告,介绍其中秘诀,通过数据、RL算法和RL基础设施三方面提升推理表现。

在智能体方面,与清华联手推出了电脑操作智能体UI-TARS,超越GPT-4o等,且免费商用。

它在Qwen-VL基础上而来,能一步步自动完成跨任务的复杂操作,并兼容各种系统。目前GitHub上星标已超过5.8k。

此外还推出了Multi-SWE-bench:用于问题解决的多语言基准。它跨越7种编程语言,包含1632个高质量实例。

与此同时,字节Seed内部也在不断调整。消息称,LLM 之下的3个团队,Pre-train(预训练)、Post-train(后训练) 和Horizon如今转为直接向Seed负责人吴永辉汇报。字节AI Lab中探索机器人&具身智能、AI for Science和AI安全可解释性的三个方向,也已并入Seed。

今年年初,字节正式设立代号为“Seed Edge”的研究项目,核心目标是做比预训练和大模型迭代更长期、更基础的AGI前沿研究,项目成员拥有宽松的研究环境、独立计算资源,并实行更长期的考核方式。拟定五大研究方向也完全面向下一代AI研究、原始性创新,或者是范式上的更迭。

而透过字节的动向,如今AI圈子的新风向也更明朗了。

开源、开放、原始性创新、AI普惠……

言而总之,还得是感谢DeepSeek了?(doge)

项目地址:https://bytedance-seed-coder.github.io/

参考链接:https://seed.bytedance.com/zh/

 时事1:米塔同人漫画免费下载

  05月11日,《海王2》票房不足5亿 超级英雄电影没人看了吗?,

  这一日,不断有高手前来,挑战小不点,到了最后不光是四大家族的人了,还有很多真正的强者,不乏超越洞天境的人物,来大战小不点,出于好奇,出于不相信,要与他争锋。

,亚洲中文字幕🈚码mv。

  05月11日,国台办:乐见两岸青年常来常往、走近走亲,

  坚持把科技信息工作摆在重要位置是党和国家的重大决策。马克思曾经说过“科学技术是生产力”,邓小平同志更是提出了“科学技术是第一生产力”的英明论断。党的xx大又做出了“以信息化带动工业化,发挥后发优势,促进社会生产力实现跨越式发展”的战略决策,号召全党坚持科教兴国,促进科技创新和产业化,把实施科教兴国战略列为中国经济社会发展的重要途径之一。

,国产精品㊙️入口跳舞,伊丽莎白露双奶头,熟妇BWBWBWBWBWBWBW。

 时事2:单k互k录音mp3视频

  05月11日,青年列车长封盛:京沪线上的服务明星,

  “它敢来,我们就敢杀!”石云峰脸色冷峻,动了真怒。

,美女露出🐻让男生揉广告,韩国女团裸体秘无遮自慰,美女露100%奶头无遮挡的网站。

  05月11日,河南光山:油茶花开 漫山染“雪”,

  众人都吓了一大跳,还好山崖上没有什么动静。

,杜达雄Gay吊大精浓Gay,女人下部㊙️高清视频,yaoi❤♂R18redmanga。

 时事3:女仆被强❌喷水羞羞视频

  05月11日,水利部针对晋陕宁3省区启动洪水防御Ⅳ级应急响应,

  1、机修厂维修的设备种类繁杂,相同用途的设备可能型号不同,分别具有不同的优点和缺点,我们要取长补短,根据现场实际情况,制作出适合的设备;根据机修厂现有的设备,新上一些项目,能自己加工制作的坚决不采购,能自己维修的坚决不外修。

,精灵宝可梦莉莉艾被❌黄漫,tk散兵漫画丨VK,两女双腿交缠激烈磨豆腐在线观看。

  05月11日,香港庙街夜市开业足月人气不减 商会研开辟手信街,

  加强村级干部培训,是贯彻落实党的xx大、xx届三中全会精神的需要。党的xx大对我国农村经济、政治、现代化建设做出了全面部署。既有统揽全局的考虑,又有具体实在的安排;既有很强的针对性,又有可行的指导性,可以说是集思想性、政策性和操作性于一体的纲领性文件。通过培训,使广大村干部深刻理解党的xx大、xx届三中全会精神的实质,进一步认清当前农业和农村经济形势,充分认识增加农民收入的重要性和紧迫性,明确中央关于促进农民增收的总体要求和政策措施,增强做好农民增收工作的责任感和主动性。

,成人18禁h黄小游戏在线玩,禁漫天堂1.7.6,ciese熟女老女人hd视频。

 时事4:犬をなめるのはよくない

  05月11日,济南机场海关查获“三无”减肥药1105粒,

  (五)建立市民广泛参与机制,解决旧城改造征地难、拆迁难的问题。要加快城市发展,就必须加快老城区的改造,特别是历史文化名城保护规划对老城区的改造和建设提出了更高要求,这是一项政治任务。而要将历史文化名城打造得丰满起来、生动起来,就必然涉及到征地拆迁。在这方面,国家的政策越来越严格,拆迁的难度越来越大,做群众工作的难度也越来越大。这就需要我们有效破解这一难题。一要树立最大限度保护群众合法利益的理念。我们建设历史文化名城根本目的是为了让老百姓生活得更幸福,因此在征地拆迁和城市建设时,要把保护群众的合法利益放在第一位。只有树立这样的理念,我们工作的安排部署、推进措施才能做得更好一些,矛盾才能更少一些。二要建立群众广泛参与的拆迁机制。城市拆迁改造对于大多数市民来讲是受益的,对拆迁户也是受益的,但要把拆迁工作做好,必须让广大群众特别是拆迁对象参与进来,实行政策公开、补偿标准公开、利益分配公开,接受群众监督。同时,让群众自己教育自己,自己解决自己的问题。降低拆迁中的矛盾对立,最大限度地实现和谐拆迁。三要加强对群众的思想教育工作。我们都说拆迁难,到底难在哪里?难在思想教育不到位,难在能做、愿意做深入细致的群众工作的干部太少,这是我们拆迁难的一个重要原因。道理讲不清、好处说不明,只是希望通过发一个公告来解决问题,工作方法单一,导致矛盾激化。要做好拆迁工作,我们的各级组织和干部要把做群众思想教育工作摆在突出位置,做到以政策服人、以理服人、以情感人。四要形成依法打击干扰城市建设违法行为的合力。城市拆迁改造中的难中之难是一些钉子户,是一些借城市拆迁改造之机敲国家竹杠、漫天要价、无理取闹的人。这些人的违法行为不仅影响市容市貌,影响了城市建设进程,而且也损害了绝大多数群众的根本利益。因此,我们既要有群众利益最大化的理念、有依法行政的作为,还要有依法处置违纪违法行为的手段和能力。在这方面最主要的是靠多部门联动,形成强大合力,努力通过法律的手段切实解决征地拆迁中存在的矛盾和问题。

,十八禁🔞免费网软件视频下载,Mr·先生破解版,揉我奶头啊嗯嗯A片软件。

  05月11日,跑步的5个坏习惯 你有吗?,

  电闪雷鸣,大雨滂沱,大荒中洪水暴涨,明明是白天,但是天色却黑的吓人,伸手不见五指,唯有闪电横空时,大地才骤亮。

,原神涩涩同人❌18禁漫画,申鹤被爆♡❌3D动漫,扒开女人双腿猛进入爽爽视频。

责编:普罗

审核:张迎伟

责编:金永大

相关推荐 换一换