近年来,人工智能正经历一场静默的革命:从能“思考”的助手,转向能“工作”的Agent。所谓“Agent”,指的是AI系统能够自主发现问题、制定假设、使用工具、执行解决方案,并在真实环境中持续交互的能力。这种能力被称为“Agent智能”,它标志着AI从被动响应走向主动参与的范式转变。

  • 论文:LIMI: Less is More for Agency
  • 链接:https://arxiv.org/pdf/2509.17567

然而,当前主流的训练方法仍遵循“数据规模决定性能”的传统思路,认为Agent智能的开发需要海量数据支持。这篇论文却提出了一个颠覆性的观点:Agent智能的培育,不在于数据量的堆砌,而在于数据质的精炼。通过仅使用78个精心设计的训练样本,LIMI在权威评测基准AgencyBench上取得了73.5%的综合得分,远超使用上万样本的基线模型,甚至实现了128倍的数据效率提升。

这不仅是一项技术突破,更是一种方法论的重构。它告诉我们:理解Agent行为的本质,比盲目扩大训练集更为重要。接下来,我们将深入解读LIMI如何实现这一“少即是多”的智能奇迹。

研究动机与问题定义

Agent智能的行业需求
随着AI技术在代码开发、科研分析、业务流程自动化等领域的深入应用,企业不再满足于“能聊天的AI”,而是迫切需要“能干活儿的AI”。例如,一个AIAgent应当能独立完成一个C++聊天系统的开发、自动搜索并整理学术数据集、甚至进行多轮推理解决复杂问题。这种能力被称为“长视野任务”,要求AI具备规划、执行、协作、纠错等综合能力。

传统方法的瓶颈
当前大多数Agent模型仍沿用语言模型的训练逻辑:通过大规模数据合成和强化学习来提升能力。例如,GLM-4.5、Kimi-K2等模型虽然在推理和工具调用上表现优异,但其训练成本极高,且依赖于数万乃至数十万的样本。更重要的是,这种“数据驱动”的范式是否真的适用于Agent智能?论文指出,Agent行为具有高度情境化和交互性,单纯增加数据量未必能提升其本质能力

LIMI的提出
受LIMA(少样本对齐)和LIMO(少样本数学推理)的启发,LIMI尝试将“少即是多”的理念引入Agent智能领域。其核心假设是:只要数据样本能精准捕捉Agent行为的本质模式,即使数量极少,也能激发出强大的Agent能力

LIMI方法核心:战略数据构建

LIMI的成功,关键在于其训练数据的“质”而非“量”。其数据构建流程分为两大阶段:查询池构建与轨迹收集。

查询池构建:真实+合成双轨制

  • 真实查询:从实际开发和科研场景中收集60个真实任务,如代码修复、数据集搜索等,确保生态有效性。
  • GitHub PR合成:利用GPT-5分析GitHub上高质量仓库的Pull Request,生成符合真实开发逻辑的任务描述。通过多轮筛选(如代码复杂度、领域覆盖度),最终选出18个合成查询,与真实查询共同构成78个训练样本。

LIMI数据构建的全流程,从左到右分别为查询池构建与轨迹收集两大阶段

轨迹收集:完整交互序列的记录
每个查询对应一个“轨迹”,即AI与人类协作完成任务的完整多轮对话。轨迹中包含三种关键动作:

  • 模型推理:AI的思考过程
  • 工具调用:如执行代码、搜索数据
  • 环境反馈:工具返回结果或用户纠正

左图:轨迹平均长度达42.4K token,右图:领域覆盖(代码开发 vs. 科研工作流)

这种设计使得每个样本都成为“高密度学习信号”的载体,模型不仅能学到最后的结果,还能学到整个协作过程中的决策路径和错误恢复策略。

实验设计与评估体系

为了验证LIMI的有效性,论文设计了多维度评估体系。

评估基准

  • AgencyBench:专为Agent智能设计的综合基准,包含10项任务,覆盖代码开发、科研分析、工具使用等。

    10项任务的具体描述

  • 泛化基准:包括tau2-bench(工具使用)、EvalPlus(代码生成)、DS-1000(数据科学)、SciCode(科学计算)等,用于测试模型在非训练领域的表现。

训练与对比设置

  • 基线模型:GLM-4.5、Kimi-K2、DeepSeek-V3.1、Qwen3等主流开源模型。
  • LIMI变体:基于GLM-4.5和GLM-4.5-Air进行微调,使用78个样本。
  • 对比实验:使用其他大规模Agent数据集(如AFM-CodeAgent-SFT,含10,000样本)训练同一模型,进行公平比较。

核心发现与结果分析

LIMI在AgencyBench上大幅领先

LIMI以73.5%的平均分显著超过所有基线模型,尤其在“首轮功能完成度”上提升超过30个百分点。

具体来说:

  • LIMI:73.5%
  • GLM-4.5:45.1%
  • Kimi-K2:24.1%
  • DeepSeek-V3.1:11.9%

数据效率突破:78样本 vs. 10,000样本
最令人震惊的是,LIMI仅用78个样本,在AgencyBench上比使用10,000样本的GLM-4.5-Code模型高出25.7个百分点(73.5% vs. 47.8%)。这意味着用1/128的数据量,实现了53.7%的性能提升

泛化能力强劲

在代码生成(EvalPlus-HumanEval 92.1%)、工具使用(tau2-bench-retail 45.6%)等任务上,LIMI均领先基线。

即使在不使用CLI工具的“纯推理”模式下,LIMI仍保持优势(见表4),说明其能力提升源于内在推理机制的优化,而非单纯工具依赖。

无工具环境下,LIMI仍以50.0%的平均分领先GLM-4.5的48.7%。

案例研究:真实场景下的Agent表现

论文通过多个实际任务展示了LIMI的优越性。

代码开发任务

  • 任务1:构建C++聊天系统。基线模型在子任务3(聊天历史存储)出错且无法修复,而LIMI全程无错完成。
  • 任务3:开发五子棋游戏。基线模型在棋盘渲染、胜负判断上连续出错,最终卡在AI难度实现;LIMI虽AI部分不完美,但其余任务均一次性通过。

科研工作流任务

  • 任务7:搜索Hugging Face数据集。LIMI返回的数据集更符合查询要求,专家评分更高。
  • 任务8:拟合数学方程。LIMI首次尝试即达到损失5.95e-7,而基线模型需多轮干预才达到1.14e-6。
  • 任务9:NBA球员推理。LIMI在多数子任务中首次回答正确,且推理步骤更少、响应更快。

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

更多推荐