Mistral AI推出 Devstral Medium 模型,以及 Devstral Small 的升级版。这些模型由 Mistral AI 和All Hands AI合作发布🙌,重点强调对不同提示和代理支架的泛化能力。 

全新 Devstral Small 1.1 采用 Apache 2.0 许可证发布,是代码代理开放模型中最先进的。Devstral Medium 可通过我们的 API 获取,并在性价比帕累托前沿上创下新高,以四分之一的价格超越了 Gemini 2.5 Pro 和 GPT 4.1。

🚀ALL IN ONE (AIO) 开放接口(API)平台

Devstral Small 1.1

Devstral是一个用于软件工程任务的智能LLM,由Mistral AI与All Hands AI合作构建。Devstral擅长使用工具探索代码库、编辑多个文件,并驱动软件工程代理。该模型在SWE-bench上的表现卓越,确立了其作为该基准下首个开源模型的地位。

它是在Mistral-Small-3.1的基础上进行微调的,因此具有高达128,000个标记的长上下文窗口。作为一个编码代理,Devstral仅处理文本,并且在从Mistral-Small-3.1进行微调之前,已移除视觉编码器。

对于需要专业功能的企业(如扩展的上下文、特定领域知识等),我们将发布超出Mistral AI对社区贡献的商业模型。

与Devstral小型1.0相比的更新:

  • 性能提升,请参考基准测试结果。

  • Devstral小型1.1与OpenHands搭配时依然非常出色。这个新版本在对其他提示和编码环境的泛化能力上也有所改善。

  • 支持Mistral的函数调用格式。

关键属性

  • 代理编码:Devstral旨在 excel于代理编码任务,是软件工程代理的理想选择。

  • 轻量级:Devstral的参数量仅为240亿,因此足够轻巧,可以在单个RTX 4090显卡或具有32GB RAM的Mac上运行,使其成为本地部署和设备使用的合适模型。

  • Apache 2.0许可证:开放性许可证,允许商业和非商业目的的使用和修改。

  • 上下文窗口:128k的上下文窗口。

  • 分词器:采用131k词汇量的Tekken分词器。

基准测试

SWE-Bench

Devstral Small 1.1在SWE-Bench验证中取得了53.6%的得分,超过了Devstral Small 1.0,提升了6.8%,并超过了第二最佳的先进模型11.4%。

在相同的测试框架下(由All Hands AI提供的OpenHands 🙌),Devstral的表现远超Deepseek-V3-0324和Qwen3 232B-A22B等更大模型。

探索智能边界,发现无限可能!(AIOAGI.TECH)

Logo

中科创新烁智(CSCITech)

更多推荐