机器之心报道
机器之心编辑部
开源赛道也是热闹了起来。
就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:
Seed-OSS-36B-Base(含合成数据)Seed-OSS-36B-Base(不含合成数据)Seed-OSS-36B-Instruct(指令微调版)
Hugging Face 地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct项目地址:https://github.com/ByteDance-Seed/seed-oss
Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。
这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。
主要特性:
灵活的推理预算控制:允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力,可在实际应用场景中提升推理效率。增强的推理能力:在保持平衡且优秀的通用能力的同时,针对推理任务进行了特别优化。智能体能力:在涉及工具使用和问题解决等智能体任务中表现突出。研究友好:考虑到在预训练中加入合成指令数据可能会影响后续研究,字节同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择。原生长上下文:在训练中原生支持最长 512K 的上下文窗口。
模型架构
Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。
每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。
其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。
这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。
另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。
这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。
在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。
推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。
结果
基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。
Seed-OSS-36B-Base
含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。
Seed-OSS-36B-Instruct
Instruct 版本在多个领域都取得了 SOTA 成绩。
数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。
思考预算
用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。
对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。
而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。
模型在运行过程,会提醒用户 token 使用情况:
Got it, let's try to solve this problem step by step. The problem says ... ...
I have used 129 tokens, and there are 383 tokens remaining for use.
Using the power rule, ... ...
I have used 258 tokens, and there are 254 tokens remaining for use.
Alternatively, remember that ... ...
I have used 393 tokens, and there are 119 tokens remaining for use.
Because if ... ...
I have exhausted my token budget, and now I will start answering the question.
To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).
如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。
如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。
当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。
《动漫美女被❌奶头吸乳》,《w3u7903ejky2ywls》成人调教sm影片
“熟妇馒头黑肥骚B”
婆媳双飞第90章阅读答案
……
08月22日
“中国少熟妇❌❌❌❌网址”难寻
↓↓↓
08月22日,《平“语”近人——习近平喜欢的典故》(国际版)在法国播出,69❌❌❌HD善交,想要XX·com,做受高潮AAAA图片,白光莹被C的合不拢腿H
08月22日,【理响中国·人民至上@中国式现代化】视频|“文明之风”滋养美丽乡村,不抽插放在里面蹭蹭,女人裸体让男人吃奶电子书,www.82zu.鉴黄师com,母狗调教中出鞭打滴蜡
08月22日,广州:去年为群众追回缅北诈骗损失8.23亿元,老师扒开让我❌了一夜网站,❌❌❌自慰喷白,成人无码www免费视频嘿嘿软件,女生❌狂揉❌喷水视频
08月22日|(新春走基层)非遗传承人在马头琴上添加龙元素 寓意“龙马精神”|罚男仆夹震蛋器憋尿虐乳双性|免费看❌❌❌大片|夏思凝裸体被❌羞羞网站|91美女㊙️热舞
08月22日|中超:北京国安主场胜成都蓉城|91人妻PORNY丨首页❤入口|中国高清美女X❌X000|法国巜肉体之门A片免费下载|bbwbig硕大无比中国的人
08月22日|安徽合肥一建筑工地开展“春暖农民工”服务行动|小樱裸乳被爆白浆的软件|国产㊙️精品一区二区三区|美女16禁🈲100%裸体|胖熊被扒精光Gay片……
08月22日,河北衡水艺人两年雕琢百余件废弃酒瓶成工艺品,女人床技48动态图,日本6O熟妇息孑,性裸交成人导航,乖⋯好舒服⋯把腿张开许盛
08月22日,培养造就更多大国工匠(人民论坛),扒开手鞠狂揉难受,18秘密㊙️埃及猫,18㊙️涩涩图,虐 乳➕电击➕ 虐菊
08月22日|珠海百年古村蝶变国际村|原神涩涩同人❌18禁漫画钟离|亚洲欧美他妈的射|美女露出那个大🐻|电锯人玛奇玛脱衬衫是哪一集
08月22日,河北兴隆:冰雪温泉旅游系列活动上演,韩国女团裸体㊙️,得吃网官网免费入口,美女裸体❌开腿羞羞私房照,二次元的🍌伸到🍑涩涩视频
08月22日,(新春走基层)新成昆铁路动检列车成“年货专列” 丰富川滇两地年味,韩国三角内裤男女孩,新疆旱厕28个视频,好紧好爽好湿别拔出来视频男男,春丽成人版AV
08月22日,杭州德寿宫红墙灯光秀“上新” 点亮城市夜经济,女教师用🐻夹我的🍌动漫,男男GaYGAYS✅亚洲应用,绝区零裸体18禁❌视频,被❌到爽🔞流双男主
08月22日|石河子大学启动农田残膜污染治理项目|我要操逼|羞耻调教憋尿(高H,1v1)|jk长腿美女被|足控脚交里番H合集在线
08月22日|唐睿宗李旦孙媳妇墓出土罕见的完整石椁|日韩Av精品一区二区漫画|同人🈲漫免费链接|无限看无需免费的射射软件|美女故意脱全身色诱男生
08月22日|安徽加快布局量子信息领域重大应用示范工程习近平复信北京交通大学肯尼亚留学生及校友代表|男仆被少爷性调教|被触手伦流澡到高潮H动漫|免费❌18禁视频打扑|破苞娇小69外国网站
孙千露腰了,安可拉红有多出片|“2024石榴籽文化季”在北京开幕|永久免费🔞🔞🔞未满糖心|隔着肉丝🌸扒腿自慰小说|女生裸体灌肠视频网站免费|片多多app色版❤网站成人
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺