字节 Seed 团队开源首个 LLM:Seed-OSS-36B。该模型具备长上下文、推理、智能体和通用能力,开发者友好,而且还主要针对国际化场景进行了优化。尽管仅用 12T 数据训练,依然在多项主流基准上表现优异,并以 Apache-2.0 许可证开放商用。

核心特性

  1. 灵活的思维预算控制:允许用户根据需求灵活调整推理长度,这一动态控制推理长度的能力提升了实际应用场景中的推理效率。例如,对于简单任务,可设置较短预算;复杂任务则可延长预算。
  2. 增强的推理能力:在推理任务上进行了专门优化,同时保持了均衡且出色的通用能力,在 BBH、AGIEval-en 等推理相关基准测试中成绩较好。
  3. 智能代理能力:在工具使用和问题解决等代理任务中表现卓越,如在 TAU1-Retail 等代理相关测试里有突出表现。
  4. 研究友好性:考虑到预训练中合成指令数据的加入可能影响训练后研究,团队发布了包含和不包含指令数据的两种预训练模型,为研究社区提供了更多样化的选择。
  5. 原生长上下文:原生支持高达 512K 的长上下文,在 RULER(128K)等长上下文测试中表现出色。

模型架构方面,Seed-OSS采用了成熟稳定的设计:

360亿参数的稠密模型(不是MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。整个模型有64层,隐藏层维度5120,词汇表大小155K。

参数 详情
参数规模 36B
注意力机制 GQA
激活函数 SwiGLU
层数 64
QKV 头数 80 / 8 / 8
头大小 128
隐藏层大小 5120
词汇表大小 155K
上下文长度 512K
RoPE 基础频率 1e7

Seed-OSS-36B一大特色是支持用户设置thinking budget参数来灵活指定模型的思考预算,和谷歌的Gemini 2.5 Flash一样。下图展示了在不同任务下,随着思考预算变化的性能曲线。对于较简单的任务(如 IFEval),模型的链式思维(CoT)较短,分数在思考预算增加时会出现波动;而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的 CoT 更长,分数会随着思考预算的增加而提升。

eed-OSS-36B-Base

在多数基准测试中,预训练加入合成指令数据能提升性能,以下是部分关键基准测试结果:

  • 知识类:MMLU-Pro 得 65.1 分,MMLU 得 84.9 分,TriviaQA 得 82.1 分。
  • 推理类:BBH 得 87.7 分,AGIEval-en 得 70.7 分。
  • 数学类:GSM8K 得 90.8 分,MATH 得 81.7 分。
  • 编程类:MBPP 得 80.6 分,HumanEval 得 76.8 分 。
Benchmark Seed1.6-Base Qwen3-30B-A3B-Base-2507* Qwen2.5-32B-Base* Seed-OSS-36B-Base
(w/ syn.)
Seed-OSS-36B-Base-woSyn
(w/o syn.)
Knowledge
MMLU-Pro 70 59.8 58.5 (55.1) 65.1 60.4
MMLU 88.8 82.7 84 (83.3) 84.9 84.8
TriviaQA 91 76.2 76 82.1 81.9
GPQA-D 43.4 37 29.3 31.7 35.2
SimpleQA 17.1 7.2 6.1 5.8 7.4
Reasoning
BBH 92.1 81.4 79.1 (84.5) 87.7 87.2
AGIEval-en 78 66.4 65.6 70.7 70.1
Math
GSM8K 93.1 87 87.5 (92.9) 90.8 90.3
MATH 72.9 61.1 63.5 (57.7) 81.7 61.3
Coding
MBPP 83.6 78.8 77.8 (84.5) 80.6 74.6
HumanEval 78 70.7 47.6 (58.5) 76.8 75.6

同时也发布了不含合成指令数据的 Seed-OSS-36B-Base-woSyn 模型,其在部分测试中成绩与含合成数据模型接近,如 MMLU 得 84.8 分。

Seed-OSS-36B-Instruct

在与其他模型的对比中表现亮眼,部分关键结果如下:

  • 知识类:MMLU-Pro 得 82.7 分,MMLU 得 87.4 分。
  • 数学类:AIME24 得 91.7 分,AIME25 得 84.7 分,BeyondAIME 得 65 分。
  • 推理类:ArcAGI V2 得 40.6 分,KORBench 得 70.6 分。
  • 编程类:LiveCodeBench v6 得 67.4 分。
  • 指令遵循类:IFEval 得 85.8 分。
  • 代理类:TAU1-Retail 得 70.4 分,SWE-Bench Verified (OpenHands) 得 56 分 。
  • 多语言类:MMMLU 得 78.4 分。
  • 长上下文类:RULER (128K) 得 94.6 分。
  • 安全类:AIR-Bench 得 75.6 分。
Benchmark Seed1.6-Thinking-0715 OAI-OSS-20B* Qwen3-30B-A3B-Thinking-2507* Qwen3-32B* Gemma3-27B Seed-OSS-36B-Instruct
Knowledge
MMLU-Pro 86.6 76.2 81.9 (80.9) 81.8 67.5 82.7
MMLU 90.6 81.7 (85.3) 86.9 86.2 76.9 87.4
GPQA-D 80.7 72.2 (71.5) 71.4 (73.4) 66.7 (68.4) 42.4 71.4
SuperGPQA 63.4 50.1 57.3 (56.8) 49.3 - 55.7
SimpleQA 23.7 6.7 23.6 8.6 10 9.7
Math
AIME24 90.3 92.7 (92.1) 87.7 82.7 (81.4) - 91.7
AIME25 86 90.3 (91.7) 81.3 (85) 73.3 (72.9) - 84.7
BeyondAIME 60 69 56 29 - 65
Reasoning
ArcAGI V2 50.3 41.7 37.8 14.4 - 40.6
KORBench 74.8 72.3 70.2 65.4 - 70.6
Coding
LiveCodeBench v6
(02/2025-05/2025)
66.8 63.8 60.3 (66) 53.4 - 67.4
HLE 13.9 12.7 (10.9) 8.7 6.9 - 10.1
Instruction Following
IFEval 86.3 92.8 88 (88.9) 88.4 (85) 90.4 85.8
Agent
TAU1-Retail 63 (54.8) 58.7 (67.8) 40.9 - 70.4
TAU1-Airline 49 (38) 47 (48) 38 - 46
SWE-Bench Verified
(OpenHands)
41.8 (60.7) 31 23.4 - 56
SWE-Bench Verified
(AgentLess 4*10)
48.4 - 33.5 39.7 - 47
Multi-SWE-Bench 17.7 - 9.5 7.7 - 17
Multilingualism
MMMLU 84.3 77.4 (75.7) 79 79 (80.6) - 78.4
Long Context
RULER
(128K)
94.5 78.7 94.5 77.5 - 94.6
Safety
AIR-Bench - - - - - 75.6

快速上手

1 、安装依赖

pip3 install -r requirements.txt
pip install git+ssh://git@github.com/Fazziekey/transformers.git@seed-oss

2、基础使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import re

model_name_or_path = "ByteDance-Seed/Seed-OSS-36B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # 可根据需求使用 bfloat16 和/或移至 GPU
messages = [
    {"role": "user", "content": "How to make pasta?"},
]
tokenized_chat = tokenizer.apply_chat_template(
  messages, 
  tokenize=True, 
  add_generation_prompt=True, 
  return_tensors="pt", 
  thinking_budget=512  # 控制思维预算
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

Seed-OSS-36B 仅仅是字节跳动进军开源大模型领域的起点,后续其大概率还会推出更多开源模型

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐