简介

本文全面解析2025年AI Agent开发技术栈,涵盖定义、核心特征、能力矩阵及发展趋势,详细对比主流开发框架,提供实战案例与性能优化方案,解析架构师、Prompt工程师和多模态专家三大核心角色能力要求,展望AI Agent从"单体实验"到"系统工程"的产业落地路径。


引言:AI Agent的定义、发展现状与未来趋势

人工智能正经历从被动响应工具向主动决策主体的范式转变,这一变革的核心驱动力是AI Agent的崛起。作为新一代智能交互范式,AI Agent标志着大模型从"Chat"(对话)向"Act"(行动)的跨越,正在重塑数字世界的运作方式[1]。自2023年AutoGPT开启智能体序幕以来,AI Agent展现出爆发式增长态势,从个人助手到企业级解决方案,从通用型Agent到垂直领域专家,已成为科技产业的核心战略方向。

AI Agent的定义与核心特征

AI Agent是基于大语言模型(LLM)构建的智能体系统,其核心在于具备自主决策、任务执行能力及与外部系统集成的工具使用接口。按照OpenAI的AGI阶段划分,AI Agent对应L3阶段,是通往通用人工智能的关键里程碑,其本质特征在于形成"感知-决策-行动"的闭环能力[3]。具体而言,AI Agent系统包含三大核心模块:记忆模块(保留历史状态、存储长期记忆)、规划模块(任务分解与优先级排序)和工具调用模块(通过API与外部系统交互),同时配备知识库管理系统支持高效信息检索[4]。

从应用形态看,AI Agent存在广义与狭义之分:狭义Agent强调自主独立运行能力,基于动态工作流响应环境变化,适用于消费级场景;广义Agent则包含遵循预定义流程的规范性实现,依赖静态工作流,更符合企业级场景对可靠性、可控性与合规性的要求。这种双重属性使得AI Agent既能作为个人生活助手自动完成订餐、购物等任务,也能在企业环境中执行金融风控、法律尽职调查等专业工作。

AI Agent核心能力矩阵

  • • 自主决策:基于环境感知动态调整策略,如OpenAI Operator订餐厅时自动调整预约时间(从7点到7:45、6:15、8:15)
  • • 工具使用:通过Function Calling调用外部系统API,实现网页操作(点击、滚动、输入)、跨App执行(如智谱AutoGLM完成超50步操作)
  • • 记忆管理:多轮LLM调用中保持上下文连续性,支持长期知识存储与短期任务记忆分离
  • • 协作协同:多Agent系统通过任务委派与共享上下文内存实现分工协作,如金融领域KYC、风险情报Agent协同工作

发展现状:从技术突破到规模落地

2025年被行业广泛称为"通用Agent元年",技术框架已从单一LLM演进为包含Planning(规划)、Tools(工具)、Memory(记忆)、Action(行动) 四大关键组件的完整体系,并发展出运行时环境、编排协作机制、开发框架和安全观测系统构成的框架层,推动AI Agent从"单体实验"进入"系统工程"阶段。市场渗透方面,85%的组织已在至少一个业务流程中部署AI Agent,其中64%集中在客户服务、HR自动化等场景,呈现出企业级应用与消费级产品双线并行的发展格局。

技术产业化进程在2025年取得显著突破:微软在Build大会上提出完整AI Agent战略愿景,推出Entra Agent ID实现非人类主体身份管理(支持条件访问、审计追踪和生命周期策略),通过Copilot Studio支持多Agent协作(任务委派、跨工具集成),并正式发布Azure AI Foundry Agent Service。OpenAI于2025年1月发布首个AI Agent产品Operator,可通过GPT-4o的视觉与推理能力模拟人类操作网页,自动完成订餐、购物等任务。国内方面,智谱AutoGLM实现跨App执行超50步操作,包括面对面建群、发红包、美团与饿了么比价等复杂任务。

企业实践中,多Agent架构已在金融科技等领域验证价值。阿联酋某初创公司通过KYC、风险情报、承销等专用Agent的半自主协作(基于LLM驱动、提示链和共享上下文内存),显著提升运营效率。B端应用已覆盖金融、医疗、法律等专业领域:微软10款AI Agent帮助麦肯锡节省90%项目筹备时间,汤森路透法律尽职调查效率提升50%,医疗行业的非接触式健康监测系统实现15秒内完成数据采样(误差率仅3%),全国社区健康站铺设超6千个终端。

市场规模呈现爆发式增长,2025年全球AI Agent市场达73.8亿美元(较2023年增长99.5%),预计2032年将突破1036亿美元。投资领域过去两年投资者向Agentic AI初创公司投入超20亿美元,科技巨头通过自研、收购和技术授权加速布局,麦肯锡研究显示超70%企业CEO认为AI Agent将在未来3年内显著改变经营模式和竞争格局。

未来趋势:技术演进与应用拓展

AI Agent的发展将沿着技术深化与应用拓展双轨并行。技术层面,多模态融合(文本+图像+传感器数据)和自主决策能力成为核心突破方向,2025年已展现出利用NLP、强化学习实现独立决策的技术进展[2][8]。安全治理体系将日趋完善,重点包括身份管理(如微软Entra Agent ID)、合规审计和生命周期策略,解决非人类主体的权限控制与行为追溯问题[5]。低代码开发平台(如Copilot Studio)将降低Agent构建门槛,支持计算机使用Agent创建、自定义模型集成和业务流程自动化。

应用层面,边缘计算与5G融合将推动实时决策能力提升,预计2025年港口装卸效率较当前提高35%以上。企业级生态建设成为重点,跨平台集成(与ServiceNow、Workday等企业系统协作)和规模化部署能力将决定市场竞争力。多Agent协作将实现"AI同事"模式,通过共享上下文内存和实时协调机制完成复杂活动,如医疗诊断中影像分析Agent与临床决策Agent的协同工作。

行业预测显示,AI Agent将在未来五年深度渗透各领域:Gartner将"Agentic AI"列为2025年十大技术趋势首位,预测到2028年至少15%的日常工作决策将通过Agentic AI自主做出,33%的企业软件应用程序将包含Agentic AI。IDC预测到2026年50%的中国500强企业使用AI Agent实现数据自动化处理[10]。市场规模方面,Markets and Markets预测全球AI Agent市场将从2024年的51亿美元增长至2030年的471亿美元,年复合增长率达44.8%。

AI Agent技术栈全景图

AI Agent的技术架构已形成层次分明的体系,涵盖模型层、存储层、工具层和应用层的完整技术栈:

  • 模型层:以大语言模型为核心驱动力,包括GPT-4o、Claude 3.5等先进LLM,提供自然语言理解、逻辑推理和决策生成能力
  • 存储层:依托向量数据库(如Pinecone、FAISS)构建知识库管理系统,支持高效信息存储与检索,实现长期记忆管理
  • 工具层:通过LangChain等开发框架和Function Calling机制,提供工具调用标准化接口,实现与外部系统API的集成
  • 应用层:面向垂直领域的解决方案,如智能座舱、金融风控、工业质检、医疗诊断等,将技术能力转化为行业价值

AI Agent技术栈全景图

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述

这一技术架构推动AI Agent从"单体实验"进入系统化、工程化开发阶段,为规模化应用奠定基础。随着上下文工程(含RAG、记忆系统、工具集成推理、多智能体系统)的成熟,以及Sandbox作为Agent runtime核心产品的发展,AI Agent将重构世界运行的底层逻辑,推动企业竞争从效率竞争转向决策竞争。

行业权威预测摘要

  • • Gartner:2028年15%日常工作决策由Agentic AI自主完成,33%企业软件包含Agentic AI
  • • IDC:2026年50%中国500强企业使用AI Agent实现数据自动化处理
  • • Capgemini:82%组织计划2026年前集成AI Agent用于邮件生成、编码和数据分析
  • • 德勤:2025年25%使用生成式AI的企业将部署AI Agent,2027年比例升至50%

AI Agent正处于技术突破与产业落地的关键交汇点,其发展不仅将重新定义人机交互方式,更将深刻改变产业形态与社会运行模式。对于技术架构师而言,理解AI Agent的技术栈构成、发展现状与未来趋势,是把握下一代人工智能发展机遇的核心前提。

岗位技能图谱:核心角色能力要求解析

AI Agent 开发需三大核心角色协同,分别聚焦系统架构、提示词工程与多模态技术,其能力体系呈现显著差异化特征。以下从技术能力、工具链与软技能维度展开解析,并通过雷达图可视化各角色技能权重分布。

AI Agent 架构师

技术能力:需精通系统架构设计(权重 40%),掌握模块化编排与工具集成逻辑,熟悉 Python 编程语言及分布式系统开发范式。需深入理解 LLM 工具调用机制与自主任务执行流程,能设计高可用的 agent memory 与状态管理方案。

工具链:核心依赖 LangChainLlamaIndex 等 orchestration libraries 进行框架整合,熟练运用 AWSAzureGCP 云平台实现企业级部署,需掌握向量数据库与知识图谱技术作为架构增强项[4][13]。

软技能:突出跨团队协作与技术方案宣讲能力,需向业务与技术 stakeholders 清晰阐释架构决策逻辑,具备将复杂业务流程转化为 Agent 执行方案的产品思维。

Prompt 工程师

技术能力:核心聚焦提示词工程与上下文管理(权重 35%),需精通提示词模板设计、多轮对话状态追踪及歧义消解技术,掌握 GPTClaude 等 LLM 的上下文窗口特性。需建立量化评估体系,通过 A/B 测试优化提示词效果。

工具链:依赖 LangSmith 调试平台进行提示词迭代,结合 Semantic Kernel 实现提示词与工具调用的无缝集成,需熟悉 Rasa 等 NLP 框架辅助意图识别。

软技能:强调细致的逻辑分析能力与用户需求转化能力,需将业务规则精准映射为机器可理解的提示词指令,具备向非技术团队解释提示词优化原理的沟通技巧。

多模态专家

技术能力:专注跨模态技术融合,需掌握视觉-文本对齐算法(如 CLIP)、语音-手势意图识别等核心技术,熟悉多模态分裂生成(文本+音频/图像)的连贯性控制方法。需深入理解 BERTGPT 等模型的多模态扩展能力。

工具链:依赖计算机视觉库(OpenCV)、NLP 框架(Hugging Face Transformers)及语音处理工具(FFmpeg),需熟练使用 Python 进行多模态数据预处理与模型调用。

软技能:需具备用户中心设计(UCD)思维,通过真实用户测试优化多模态交互流程,平衡技术实现与用户体验需求,具备跨模态数据隐私与伦理风险评估能力。

三大角色核心能力差异显著:架构师侧重"系统整合",Prompt工程师聚焦"人机对话优化",多模态专家专攻"跨模态交互实现"。三者需通过工具链协同(如LangChain+LangSmith+多模态模型)构建完整AI Agent解决方案。

岗位技能雷达图

雷达图清晰呈现各角色技能权重分布:架构师的系统设计占比40%,Prompt工程师的上下文管理占35%,多模态专家的跨模态融合技术占比突出,共同构成AI Agent开发的能力三角。

技术框架解析:主流开发框架对比与选型指南

AI Agent 开发框架的选型需基于技术架构、协作能力、易用性及场景适配四大核心维度综合评估。不同框架因设计理念差异,在复杂任务处理、多 Agent 协同等场景中表现出显著分化。以下通过对比表格呈现主流框架核心差异,并结合实际应用案例解析选型逻辑。

主流 AI Agent 框架核心特性对比表

框架名称 技术架构 优势 劣势 适用场景 社区支持
LangChain 模块化链式执行 复杂流程编排、RAG 增强能力突出 ,支持多模态数据处理 高阶功能需自定义开发,模块组合复杂度高 企业级复杂流程(金融风控系统、法律文档分析) GitHub 星标 100k+,生态工具链丰富
MetaGPT 软件工程模式 SOP 流程自动化 ,内置需求分析→设计→开发全流程模板,代码生成质量高 依赖 asyncio 导致并行处理受限,高度自定义场景灵活性不足 技术类任务(Todo 应用开发、API 自动化测试) 支持 10 种编程语言,文档完善度高
CrewAI 角色分工协作 团队任务调度机制成熟 ,内置项目经理、研究员等 8 种预设角色模板 非角色化场景资源占用较高,单 Agent 任务效率一般 多角色协同任务(市场调研、竞品分析报告) 社区插件生态快速扩展,教程案例丰富
AutoGPT 自主目标分解 记忆与上下文管理能力强 ,支持浏览器/文件系统深度集成 依赖可视化工具限制代码级定制,复杂任务易陷入循环 个人自动化场景(旅行规划、电商比价) 开发者工具集成度高,用户社区活跃
AutoGen 动态多智能体交互 LLM 与工具集成灵活性高 ,支持人类反馈实时介入 学习曲线陡峭,自定义协作逻辑开发成本高 大规模 LLM 应用(动态对话系统、多模态内容生成) GitHub 讨论区日活 500+,问题响应速度快
LangGraph 图结构任务分解 任务依赖关系可视化管理 ,支持复杂流程状态追踪 对图论知识要求高,简单任务配置繁琐 流程密集型场景(供应链优化、医疗诊断流程) 文档案例覆盖金融、医疗等垂直领域

主流框架对比矩阵图

框架选型逻辑与实战案例分析

在技术架构维度,模块化设计流程可控性是核心考量。LangChain 凭借其链式执行架构,在金融风控系统中实现了从数据采集(RAG 增强)→风险指标计算→报告生成的端到端自动化,其 100k+ GitHub 星标印证了企业级场景的认可度。而 MetaGPT 则通过软件工程模式将需求文档直接转化为可执行代码,某科技公司使用其开发 Todo 应用时,需求分析至 API 测试的周期缩短 60%,体现了SOP 流程自动化的独特优势。

协作能力方面,CrewAI 的角色分工机制在团队任务中表现突出。某市场调研公司通过配置"行业分析师+数据可视化专家+报告编辑"的 Agent 团队,实现竞品分析报告的自动化生成,较传统人工流程效率提升 3 倍。而 AutoGen 的动态交互特性则适合需要人类反馈的场景,例如在法律咨询系统中,律师可实时介入 Agent 的法律条款解读过程,修正推理偏差。

易用性与场景适配需平衡技术门槛与功能需求。对于非技术团队,AutoGPT 的可视化界面降低了使用门槛,个人用户可通过自然语言指令完成旅行规划中的航班比价、酒店筛选等串联任务;而 LangGraph 虽需开发者具备图论知识,但其在医疗诊断流程中对"症状输入→检查项推荐→诊断结论"的状态节点管理,展现了复杂流程的精准控制力。

选型决策树

    1. 企业级复杂流程→优先 LangChain(模块化扩展)或 AutoGen(社区支持)
    1. 多角色团队任务→CrewAI(预设角色模板)
    1. 技术开发场景→MetaGPT(SOP 自动化)
    1. 个人轻量自动化→AutoGPT(低代码门槛)
    1. 流程状态密集型任务→LangGraph(图结构管理)

社区支持是框架长期稳定性的关键指标。LangChain 与 AutoGen 凭借庞大的开发者社区,持续推出针对企业场景的插件(如 LangChain 的 SQL 数据库集成、AutoGen 的多模态模型适配);而 MetaGPT 通过支持 10 种编程语言,逐步打破早期 Python 单一依赖的局限,增强了跨技术栈项目的适用性。开发者在选型时,需结合项目生命周期(短期验证或长期迭代)与团队技术背景,优先选择生态成熟度与场景匹配度最高的框架。

实战案例:技术实现与性能优化解析

Dextra Labs 阿联酋金融科技 AI Agent 案例

业务背景

Dextra Labs 为阿联酋金融科技客户部署 AI Agent 系统,核心目标是提升承销和合规工作流的运营效率。客户面临三大痛点:KYC 与合规任务手动工作量高,导致人力成本占比达 40%;贷款审批因承销流程瓶颈平均延迟 3-5 个工作日;风险评估依赖人工判断,一致性不足且错误率超过 5%。

技术架构

系统采用 LLM 驱动的多 Agent 协作架构,包含三个专用功能模块与安全基础设施层:

  • 功能层:KYC Agent(身份验证)、风险情报 Agent(异常检测)、承销 Agent(自动评分)通过提示链与共享上下文内存实现半自主协作;
  • 基础设施层:部署于容器化云环境,集成字段级加密、基于角色的访问控制(RBAC)及完整审计日志,满足金融行业合规要求6。
关键实现

多 Agent 协同流程

    1. KYC Agent:采用 OCR 技术提取身份证、银行流水等文档信息,结合 NLP 实体识别验证一致性,准确率达 98.5%,实时标记地址与姓名不匹配等异常;
    1. 风险情报 Agent:集成 12 个实时交易 API,通过微调 BERT 分类模型(F1 分数 0.92)检测可疑交易模式;
    1. 承销 Agent:基于 5 年历史贷款数据训练监督学习模型,实现申请自动评分(MAE < 0.03)与优先级排序,高风险申请自动触发人工复核。

NVIDIA销售助手流程图

性能优化

系统部署后通过三层优化实现显著效益:

  • 效率提升:运营生产力提升 35%,决策时间加快 50%,每月减少 200 小时以上手动操作;
  • 准确性改善:合规工作流错误率从 5% 降至 0.8%,风险评估一致性评分(ICC)达 0.94;
  • 安全增强:通过 RBAC 与字段级加密,数据泄露风险降低 90%,满足 UAE 金融监管局(DFSA)合规要求。

技术难点
  • • OCR 处理多语言文档(阿拉伯语/英语混合)时,字符识别错误率较单一语言场景高 3-5%
  • • 实时交易 API 数据延迟波动(50-500ms)导致风险检测窗口不一致
  • • Agent 协作中共享上下文内存占用随任务量线性增长,需定期执行上下文修剪(每 100 次交互触发一次)
  • • 金融数据隐私要求与模型推理效率的平衡,加密计算使推理速度降低约 18%

未来挑战与开发者行动指南

AI Agent开发正面临技术突破、伦理规范与工程落地的三重考验,需通过系统性解决方案构建可持续发展路径。技术瓶颈主要表现为长程规划能力不足、系统工程化程度低,解决方案可采用分层任务分解优化决策链条,并构建包含运行时、编排协作、开发框架及观测安全机制的完整体系,其中上下文工程(RAG、记忆系统、工具集成推理、多智能体系统)与人机协同是突破关键。伦理风险聚焦于数据安全与算法治理,需建立人工监督机制,结合身份管理(如微软Entra Agent ID的条件访问与审计追踪)、字段级加密及RBAC权限控制,平衡创新与合规。工程落地挑战则涉及框架复杂性与系统集成,需简化AutoGen、LangGraph等工具的学习曲线,优化与Salesforce、SAP等现有系统的API对接稳定性,推动从“单体实验”到“系统工程”的跨越。

开发者能力进阶路径需分阶段突破:初级阶段应掌握CrewAI、LangChain等框架,通过构建市场调研Agent等项目熟悉工具调用流程,利用LangSmith监控平台实现基础观测;中级阶段需参与企业级项目开发,重点整合向量数据库与知识图谱,提升多模态交互与持续学习模块的工程化能力;高级阶段聚焦性能优化,深入研究LLM内存管理与Sandbox runtime技术,优先掌握RAG与多模态融合技术,实现Agent系统的低延迟与高可靠性。

CrewAI、LangChain等框架,通过构建市场调研Agent等项目熟悉工具调用流程,利用LangSmith监控平台实现基础观测;中级阶段需参与企业级项目开发,重点整合向量数据库与知识图谱,提升多模态交互与持续学习模块的工程化能力;高级阶段聚焦性能优化,深入研究LLM内存管理与Sandbox runtime技术,优先掌握RAG与多模态融合技术,实现Agent系统的低延迟与高可靠性。

未来AI Agent的核心价值在于人机协同,而非替代人类决策。开发者需将Agent定位为战略伙伴,通过超级AI能力强化全面感知与敏捷决策,推动组织从“人工主导”向“人机共创”模式转型。这一趋势不仅颠覆技术架构,更将重塑企业竞争本质——在决策速度与精度的双重维度上,构建AI驱动的新型竞争优势。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.如何学习大模型 AI ?

🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

更多推荐