想要入门 AI,AI技术发展史:从特定应用到Agent,小白也能看懂的AI技术脉络!
本文系统梳理AI技术从特定应用到Agent的发展历程,解析Transformer、ChatGPT、RAG、多模态、开源大模型等关键突破。强调AI学习应避免碎片化,建议先建立整体认知框架。当前AI已达"胜任"水平,正向"专家"级迈进,未来将逐步实现AGI。为AI初学者提供清晰学习路径和资源指引。
简介
本文系统梳理AI技术从特定应用到Agent的发展历程,解析Transformer、ChatGPT、RAG、多模态、开源大模型等关键突破。强调AI学习应避免碎片化,建议先建立整体认知框架。当前AI已达"胜任"水平,正向"专家"级迈进,未来将逐步实现AGI。为AI初学者提供清晰学习路径和资源指引。
在 AI 技术迅猛发展的今天,我们每天都能在社交平台上看到新的AI产品 — 能写文案、能画图、甚至能自动写代码。很多人都有这样的感受,它们看似离我们越来越近,但当我们真正想系统学习时,却往往不知从何入手。身边也总有同学或朋友问我:“我是纯新手,该从哪开始学AI?” 每次我脑子里闪过 “Transformer”、“Agent”、“RAG”、这些术语,但意识到对于尚未建立 AI 领域整体认知的初学者来说,直接深入这些技术细节并不合适。
想要入门 AI,最忌讳的就是“过早深入细节而缺乏系统视角”:还没搞懂基础模型的特点,就急着学微调;连工具调用的逻辑都没摸透,就想去做 Agent;这种 ’碎片化学习’ 方式往往导致知识体系缺乏连贯性,学习者难以理解各技术点间的内在联系,不仅容易因看不到整体而放弃,还会在遇到复杂问题时感到更加困惑。我一直有个根深蒂固的习惯 — 面对任何新领域,必须先摸清它的“完整轮廓”。就像拼一幅复杂的拼图前,一定要先看一眼盒盖上的终局图,知道手里的每一块碎片对应整体的哪个位置,后续的学习才不会迷茫。
所以,后面我准备开一个新的系列:《漫谈 AI》,这个系列的初衷不是教大家怎么用某个 AI 工具,而是先帮你补上“最基础的一课”:建立对 AI 技术的整体认知。我们会从 AI 的演进脉络说起 — AI 是怎么从“只能处理特定任务”,变成今天能和人自然对话、能自主调用工具的形态?2017 年的Transformer、2022 年的 ChatGPT、2024 年的MCP 协议,这些关键节点到底改变了什么?我们也会理清 AI 的核心领域与关系:NLP、CV、LLM、提示工程、RAG、工具调用、Agent 等等。本系列将从四个角度展开:AI 演进脉络、AI 技术全景、AI 生态全景、AI 学习资源。今天我们进入第一个专题:AI 技术演进的这条主线,究竟是怎样走过来的?
大概在三年前,大家在技术领域谈论最多的热门话题还是区块链、元宇宙,而 AI 对于大多数人来说,依然是一项仅由特定领域的专业人才才能接触和使用的技术。而当下,无论是从大家讨论的热度还是从各种技术产品和岗位上,AI 已经远远把这些概念甩在了身后,在这几年的时间 AI 技术经历了一场爆发式增长,以下是这三个概念在 Google 上的搜索热度变化:
AI 技术为什么在这几年的时间里能突然爆发,并且能够保持热度持续增长?当下的 AI 技术发展到了一个什么样的阶段?在这几年的 AI 技术发展过程中,有哪些关键的时间节点?为了弄懂这些问题,我们一起进入 “漫谈 AI” 系列的第一期,从我个人的视角来谈一谈以下几个主题:
- AI 在特定领域下应用
- AI 技术走进大众视野
- AI 与真实世界进行交互
- AI 看见和理解真实的世界
- AI 开源和领域大模型
- AI 改变了传统的编码方式
- AI 自主决策完成真实任务
- 未来是什么? 通往AGI?
AI 在特定领域下应用
大家应该都能感受到,大概在几年前,AI 其实还距离普通人很遥远,是传说中的 “NLP 大佬、CV 专家” 们才会接触到的技术,因为在这个阶段,“AI” 仅能通过专业人才,在特定领域下应用。
人工智能(Artificial Intelligence, AI)是研究如何让机器模拟人类智能行为的科学与技术总称,核心目标是让机器具备 “感知、理解、推理、决策、生成” 等类似人类的能力。
AI 技术覆盖的范畴极广,又可以细分为多个子领域:
- 任务维度:NLP(语言理解/生成)、CV(视觉识别)、ASR(语音转文本)等;
- 技术维度:机器学习(ML)、深度学习(DL)、强化学习(RL)等。”
我们就拿 NLP 来说,它是 AI 的核心子领域,它专注于解决让 “机器能够理解人类语言、并生成人类可理解的语言” 的问题 —— NLP 的本质是 “打通人机语言交互的壁垒”。在深度学习崛起之前,传统机器学习(ML)方法是 NLP 领域的主流实现路径之一:它能让模型从海量文本数据中学习语言规律(如语法结构、语义关联),具体可通过监督学习(用标注数据训练)、无监督学习(从无标注数据中挖掘规律)、强化学习(通过‘试错’优化输出)、自监督学习(用数据自身构建监督信号,如 BERT 的掩码任务)等方式实现。
但这个时期的 NLP 的技术有个瓶颈,就是人类的语言其实非常复杂, 有时候存在 “歧义、语境依赖、抽象表达”(如 “他买了苹果,因为它甜”,“它” 指苹果),模型很难像人类一样精准理解。所以这个时期的 AI 主要专注于完成一些特定场景下的任务:
- 理解类:文本分类(垃圾邮件识别)、情感分析(判断影评好坏);
- 生成类:机器翻译(中英互译)、文本摘要(长文缩短文);
AI 技术走进大众视野
从以上的 Google 搜索热度指数趋势图中,我们可以看到,大概在 2022 年底,AI 这个词的热度就开始逐步攀升,也就代表着 AI 技术开始逐步走进大众视野,然而真正给这个节点奠定基础的却是 2017 年发布的一项颠覆性技术。
2017 年,Google 团队发表了一篇论文《Attention Is All You Need
》,其中提出的了一个全新深度学习(深度学习(DL)是 ML 的子集:指用多层神经网络从数据中自动学习表示的技术)模型架构 — Transformer。Transformer 不是一个具体模型,而是一种 “设计蓝图”,它的核心创新就是 “自注意力机制(Self-Attention
)”。
https://arxiv.org/pdf/1706.03762
此前主流的 NLP
架构(如 RNN),在处理语言时需 “逐词顺序计算”(先算第一个词,再算第二个),这种计算无法并行,效率非常低;且在长文本场景下(如文章段落)的 “上下文依赖” 捕捉能力非常弱(记不住前面的内容)。
而 Transformer
的 “自注意力机制” 能够让机器在处理某个词时,能 “同时关注句子中所有相关词”。同时借助并行化训练效率大幅提升,能支撑更大规模数据与参数。“以句子‘苹果很甜’为例:传统 RNN 需顺序计算(‘苹’→‘果’→‘很’→‘甜’),忽略 ‘苹果’ 与 ‘甜’ 的关联;Transformer 通过自注意力计算每个词与其他词的权重(如 ‘甜’ 对 ‘苹果’ 的权重=0.8),直接建立语义关联。”,这样就能够更精准的捕捉语境;另外这套架构能够并行计算:无需逐词顺序处理,可同时计算所有词的语义,训练效率提升了数十倍,能够支持更大规模的数据和参数;
Transformer 最初为 NLP 设计,后来也扩展到了 CV、语音识别等 AI 领域,是现代 NLP/多模态的主力架构。但是如此出色的架构,也不是一出现就直接引领起了这波 AI 技术浪潮,想要训练出一个出色的模型,除了创新的技术架构和算法优化,还有两大关键因素:
- 数据:训练数据的规模足够庞大,才能让模型学习到语言、图像等领域的通用规律,另一方面,数据质量和多样性至关重要,低质量数据会导致模型偏差,因此时至今日,在整个模型训练的过程中,准备训练数据依然是最耗时也是最重要的步骤。
- 算力:Transformer 的注意力机制和大参数规模,都需要强大的硬件支撑,因此即便你拥有了出色的技术能力和海量的数据,没有足够强大的硬件设备,或者没有足够的 Money 来采购强大的算力,也无法完成模型的训练。当下,美国依然还在高端 GPU 的出口管制(如A100/H100)来遏制我国的 AI 技术发展。而庞大的硬件算力需求,也一度让英伟达这样的硬件公司股价攀升十倍,一度超越苹果、微软这样的老牌科技巨头,成为全球市值最高的企业。
而我们现在所谈论的 LLM (大型语言模型,Large Language Model
的缩写),它就是 Transformer 架构的「超级进化体」,LLM 通过「参数规模爆炸式增长」和「训练技术迭代」,让机器拥有了接近人类的语言理解与生成能力。LLM 的核心就是 “大”:参数量从百亿级到万亿级,训练数据覆盖互联网海量文本(书籍、网页、论文等)。
受制于 数据、算力 这两项关键因素的限制,LLM 并未在 Transformer 问世后立刻爆发,直到 2022 年 11 月,ChatGPT(基于 GPT-3.5,并通过人类反馈强化学习,RLHF 进行精细调优的对话优化版本)横空出世,从而引爆 LLM 热潮;其实早在 2019 年 OpenAI 就发布了 GPT2(参数量 15 亿) ,但是当时的效果远不如 ChatGPT 惊艳,所以未掀起太大的波澜。ChatGPT 是人类首个能实现 “自然对话交互” 的模型,也就是这种能力,开始让 LLM 走向大众视野,也让 AI 开始走进 C 端产品。
LLM 的核心突破在于它的:“涌现能力(Emergent Abilities)”,当我们持续扩大模型规模、训练数据或训练步数时,模型的某些能力不是线性平滑提升,而是在某个阈值附近 “显著跃升”,这种“阈值式”能力提升被称为涌现。涌现能力表现出来的典型现象:
- 上下文学习(Few-shot/In-context learning):不改参数,仅靠提示里的几个示例,模型就能学会新任务。
- 指令遵循与稳健对话:从“答非所问”到能严格理解约束、格式与角色设定。
- 多步推理与链式思考(Chain-of-Thought):从只会回答结论,跃迁到能分步解释、规划解题步骤。
- 算术与逻辑:从仅会模式匹配到能稳定做多位数加减、括号匹配、真假推理等。
- 工具使用与代码能力:能写可执行代码、调用工具/函数、读写结构化数据等。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
直到目前,学术界对涌现的底层机制尚未完全明确(这仍是 AI 领域的核心研究课题),但主流观点认为,其本质是 “大规模参数 + 海量数据” 共同作用下,模型实现了对 “世界规律的隐性建模”。涌现能力对普通人的核心价值是‘降低 AI 使用门槛’ — 比如传统 AI 做‘财务报表分析’,需要专业人员标注数据、训练专属模型;而具备涌现能力的 LLM,普通人只需输入‘分析这份财务报表的营收趋势,指出异常项’,模型就能自主拆解任务(读取数据→计算增长率→对比行业均值→标注异常),无需专业技术储备”。
在这之后,人们看到了 LLM 的无限潜力,各大科技公司纷纷跟进,Meta 的 LLaMA、Google 的 Gemini、Anthropic 的 Claude 等优秀模型陆续推出。这些企业凭借海量数据储备、充足的算力采购资金,再结合算法迭代与工程化落地能力,逐步实现了接近 GPT 的核心效果。各种 LLM 应用也开始走进普通大众的视野。而后来,中国公司深度求索推出的 DeepSeek 更是引爆了 LLM 的开源热潮,将普通大众不仅能人人都能使用 AI,还能打造自己的专属 AI(后面的章节会讲)。
就在这个时期,一门新兴的学科 提示工程(Prompt Engineering
)也开始悄然兴起。因为人们开始意识到:提示词的质量直接决定 AI 能力的发挥程度。简单来说,提示工程就是通过精心设计的自然语言指令,让 AI 准确理解需求、稳定输出高质量结果的方法论,这也成为了普通人能够用好 AI 的一份 “系统方法论”。当时社区流传着各种 “经验型启发式技巧”,比如说在问题前加上 “让我们一步步思考” (“Let’s think step by step”) 能显著提升数学题正确率,通过设定 “你是专业律师” 的角色就获得更严谨的法律建议。这些零散的经验逐渐汇聚成系统方法,推动提示词工程从 “玄学” 走向科学。
对于绝大多数普通用户而言,通过微调模型来适配需求门槛过高,而提示工程则提供了一种无需改动模型本身、仅通过优化输入即可引导模型行为的轻量化方案。正如 Anthropic 在官方教程中强调的:“把大模型当成聪明勤奋的新员工,你的指令清晰度直接决定工作成果”。2023 年 6 月,OpenAI 发布《GPT 最佳实践》教程(目前在文档中直接改名为 Prompt engineering
),系统总结出明确指令、提供示例、分步拆解等六大策略,标志着提示词工程进入标准化发展阶段。
同年 Anthropic 也推出针对 Claude 的提示词指南,强调角色设定和结构化输入的重要性,两家巨头的方法论虽各有侧重,但核心都指向 “更高效的人机对话设计”。后来,社区也逐步开始总结出自己的方法论,比较有代表性的就是目前已经有 60K+ Star 的 《Prompt-Engineering-Guide
》(目前最经典的 角色设定→任务目标→输出要求→参考示例 提示词组织方式),以及提示词的结构化编写方法:《LangGPT》。
AI 与真实世界进行交互
不可否认,提示词工程彻底重塑了普通人与 AI 的交互逻辑 但它本质是对 “输入信息” 的优化,却无法解决 LLM 自身的核心短板。LLM 虽凭借海量训练数据拥有渊博知识,但存在两大核心局限:
- 知识固化于训练截止时间,无法获取实时信息或私有数据;
- 缺乏与外部系统的交互能力,无法借助工具完成特定任务。
因此,这一阶段的 LLM 应用多以对话机器人形式存在,难以真正融入人类真实任务场景。而突破这一困境、打通 AI 与人类世界通道的关键,在于两大技术方向的成熟:一是解决 “知识补给” 的 RAG
(检索增强生成),二是实现 “工具交互” 的 Function Calling
。
RAG 的核心价值是解决 LLM “知识过时” 与 “知识私有” 的痛点,早在 LLM 尚未大规模普及的 2020 年,Meta AI 团队在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
》中就首次提出了 “检索 + 生成” 的融合思路,并且验证了 “先检索外部文档再生成回答” 的可行性。
https://arxiv.org/pdf/2005.11401
该论文被 NeurIPS 2020 接收,这也是当下盛行的 RAG 技术的雏形。后来,随着 GPT 等大模型的问世,开发者开始尝试将检索模块与大模型结合,用于处理法律、医疗等专业领域的私有文档查询,RAG 有三点重要的优势:
- 无需重新训练模型:仅通过更新外部知识库,即可让模型获取最新信息,成本极低。
- 保障数据隐私:企业敏感数据无需上传至公有云模型,只需部署私有检索系统,兼顾安全与实用。
- 答案可溯源:回答可追溯至具体文档片段,有效缓解LLM的‘幻觉’问题,这在医疗、法律等对准确性要求极高的领域至关重要。”
随着 LLM 应用向企业级场景渗透,RAG 迎来爆发期。
OpenAI、Google 等 AI 公司在持续更新 LLM 的同时,也都推出了专门用于 RAG 的嵌入模型,Langchain、LlamaIndex 等开发框架相继推出模块化 RAG 组件 —开发者无需从零搭建检索系统,只需接入企业文档库(如 PDF、数据库),即可快速实现 “文档问答”“知识库检索” 等功能;另一方面,智能客服、金融等行业场景化案例也在持续涌现。直到今天,RAG 技术还在高速发展,它是给 AI 打通和人类世界的第一条通道。
如果说 RAG 是为 LLM 补充 “知识储备”,那么 Function Calling 则是为其赋予 “行动能力”。核心思路是为大模型安装 “外挂工具箱”:当 LLM 判断自身无法直接完成给定任务(如 “查询今天北京天气”“计算某组财务数据”“调用 API 生成图表”)时,会主动触发预设的函数接口,调用外部工具。
以 OpenAI 为代表的厂商在 2023 年开始普及 “函数式工具调用(Function/Tool Calling)”,本质上就是提供了大模型与外部系统交互的能力,它是给 AI 打通和人类世界的第二条通道(模型理解用户意图 -> 生成符合规范的函数调用参数 -> 执行函数 -> 将结果返回给模型生成最终回答)。通过这项能力,LLM 的形态不再是一个简单的对话机器人,我们看到了更多创新可能性,几乎很多互联网时代的热门产品,都有望借助 AI 技术实现重构和升级一遍。
在 2023 年,一个明显的现象是,各种 “AI 应用” 低代码搭建平台开始逐渐兴起,人们可以借助这些平台快速搭建并上线一个自己的 “AI 应用”。比如以 Coze 为代表的低代码平台,通过构建丰富的插件市场,将现实世界的API 能力标准化,供大模型调用。人们通过各种提示词 + 插件(工具)组合成特定的工作流,就形成了一个专属的 “AI 应用”:
另外一个典型案例就是自 2022 年底开源后、在 2023 年迅速流行的 AI 应用开发框架:Langchain,它的核心设计思路是提供一套模块化、可组合的抽象组件,用以简化和标准化基于大模型的应用程序开发。它通过‘链’(Chains)等方式组织调用序列,极大地降低了大模型(包括 Function Calling
)、工具、记忆体等组件之间的集成难度:
OpenAI 最初提出 Function Calling
时,它更多是作为其API的一项专有功能。虽然其设计思想极具启发性,但并未立即成为一种开放标准,所以虽然后续很多模型也支持了 Function Calling,但是各自在实现方式上存在细微差异,而且各种模型对 Function Calling 的支持度和调用稳定性也不太一样。这也成了以上各种 AI 应用搭建和开发框架的卖点,如果我们不想借助这些框架,自己从零开发 AI 应用,成本还是很高的。另外还有个问题就是虽然似乎每个框架都提供了自己的 “工具市场” ,但它们的封装方式也不一样,这也就意味着这些工具并不通用,你封装的工具只能在特定的平台或框架下使用。
直到 24 年底,Anthropic 推出了 MCP(Model Context Protocol
,模型上下文协议),它真正的统一和 LLM 和外部工具的交互方式(其实底层也是基于 Function Calling,但它提供了统一的接口和标准):
随后各种应用、开发框架纷纷支持,开发者们按照 MCP 协议进行开发,无需为每个模型与不同外部工具的对接重复编写适配代码,另外已经开发出的 MCP Server
,因为协议是通用的,能够直接开放出来在各种 MCP Host 中使用,这让各种 LLM 开发平台本身的工具市场瞬间失去优势,也真正的让 LLM 应用开始 “百花齐放”,也为后来的 “Agent” 大爆发奠定了基础。
AI 看见和理解真实的世界
修图不再需要用 PS 抠图几小时,一句 “把背景换成雪山日落” 就能让画面焕新;普通人用手机输入 “赛博朋克风的城市夜景短片”,就能生成带光影特效的电影级片段;刷长视频时 AI 自动提炼关键剧情,连逝去亲人的声音都能重现 —— 这些曾专属于专业人士的‘魔法’,正逐渐变为触手可及的日常工具。而这一切变化的核心驱动力,正是 AI 领域的又一个关键跃迁:能让 AI 看见和理解真实的世界。 早期的 AI 技术在很大程度上都局限于单一的“感官”。NLP 模型处理文本,CV 模型处理图像,它们精通某一领域,却无法像人类一样,综合利用眼、耳、口等多种感官来感知和理解这个复杂的世界。而 AI 发展的下一个关键跃迁,正是打破这种壁垒,迈向“多模态”时代。
所谓“多模态(Multimodality
)”,指的是 AI 系统能够同时理解、处理和融合来自多种不同类型数据(文本、图像、视频、音频)的信息,并基于这些综合信息进行思考、推理和生成。 在多模态技术成熟之前,这些模态之间存在着巨大的鸿沟。一个能看懂图片的模型,无法描述图片里的故事;一个能听懂语音的模型,无法理解语音背后的情绪。这种割裂导致 AI 与人类的交互方式非常“机械”——你必须用它能理解的方式(通常是文本或特定格式的图像)去“喂”给它信息。而人类认知世界的核心方式恰恰是多模态的。我们看一部电影,会同时处理画面(视觉)、对白和配乐(听觉),甚至结合字幕(文本),最终形成一个完整、连贯的理解。AI 多模态的目标,就是让机器尽可能地复现这种综合感知能力。
多模态的爆发也并非一蹴而就,早在 Transformer
革命 NLP 领域后不久,研究者们就开始思考:能否将 Transformer 的强大能力应用到视觉领域?2020 年,Google 团队提出了 Vision Transformer (ViT)
,其核心思想是将一张图片分割成多个固定大小的图像块,然后将这些图像块线性嵌入,就像处理单词一样,输入到 Transformer 编码器中进行处理。
https://arxiv.org/pdf/2010.11929
ViT 的成功意义非凡,它证明了 Transformer
架构不仅适用于文本,也能成为处理图像的强大引擎。这为后续的“大一统” 模型铺平了道路。既然文本和图像都能用 Transformer
来处理,那么是否可以设计一个统一的模型,让它在同一个“大脑”里同时学习文本和图像的表示呢?基于这一思想,一系列划时代的多模态大模型应运而生。
2021 年,OpenAI 发布了 CLIP (Contrastive Language-Image Pre-training)
,它基于 ViT 的架构,开创性地使用了“对比学习”的方法。从本质上讲就是从成对的图像和与之相关的文本描述中学习。在应用于任何特定任务之前,它会在绝对庞大的数据集上进行“预训练”。这使它对世界有了广泛、普遍的了解。然后在大量图像和文本标题中,模型学会找出哪个图像属于哪个标题。这就像一个巨大而复杂的匹配游戏,模型因正确将图像与其文本配对而获得奖励,并因建立错误连接而受到惩罚。
https://github.com/openai/CLIP
所以,CLIP 的核心思想就是学习视觉数据(图像)和文本数据(语言)之间关系的模型。为了实现这一目标,它接受了从互联网上抓取的惊人的 4 亿个图像文本对的训练。这种巨大的规模使它对概念有如此广泛而细致的理解。
2022 年,我们熟知的文生图三大巨头 DALL-E(2) / Midjourney / Stable Diffusion
诞生了。
它们都采用了 CLIP 和另一个关键架构 Diffusion Model
(扩散模型)。Diffusion Model
解决了“如何生成高质量、高多样性、且极其逼真的图像”这个核心难题,它成为了当前图像生成领域的主流技术。
https://arxiv.org/pdf/2112.10752
简单来说,Diffusion Model
是一个负责动手的“雕塑家”,它有高超的技艺,能雕出任何东西,但你得告诉它雕什么。CLIP
就是那个提供指导的“艺术总监”。你把文字需求(“一只宇航服猫”)告诉 CLIP
,CLIP
把它翻译成 Diffusion Model
能理解的“视觉概念”(向量)。CLIP 和 Diffusion Model
本身是两个独立的模型,但将它们巧妙地结合起来,才诞生了强大的文生图能力。我们可以将文本描述(Prompt)作为引导,创造出前所未有的视觉艺术。这彻底引爆了 AIGC 浪潮,让“一句话生成一张画”从科幻变为现实。
对于一个从来没接触过这个领域的小白用户,首次使用 Midjourney
和 Stable Diffusion
让我大受震撼,真的感觉和魔法一般。当然,每当有这种新鲜玩意的出现,总能让培训机构们大赚一笔,记得当时一门 Midjourney
的入门课程都要上千元 … 不过当时使用这些模型确实是有门槛的,比如 Midjourney
必须要使用 Discord 社区来运行,Stable Diffusion
要本地部署,DALL-E 的 API 国内也无法使用,所以能用上的还是小部分人。
2023 年,多模态能力开始被整合到大型语言模型中。GPT-4V 的发布标志着大模型正式具备了视觉理解能力,它不仅能处理文本输入,还能分析和理解图像内容。随后,Google 的 Gemini 模型更是从设计之初就定位为“原生多模态”,能够无缝地理解和交织处理文本、代码、图像、音频和视频。
2024 年,到了多模态能力的“井喷期”,国内厂商也迅速跟进,字节豆包、百度的文心一言、阿里的通义千问等纷纷上线强大的多模态能力,多模态成为了顶级大模型的“标配”。而 OpenAI 发布的 Sora 更是将 AI 多模态带上了新的高度,它生成的视频能够模拟真实世界的物理规律,实现复杂的镜头运动和连贯的多角色叙事,视频中的人物和背景能保持高度的一致性,即使镜头移动或物体被遮挡,也不会出现穿帮或变形。并且可生成长达 60 秒的视频,时长和质量都远超当时其他模型。在这之后,AI 的视频生成能力也开始爆发。
字节的即梦、快手的可灵也都在 2024 年发布,自此,即使是零基础用户,也可以低成本的使用这些软件创作出高质量的图片和视频,这也标志着 AI 多模态技术正式进入大众消费市场,引发了第一波全民AI视频创作热潮。
来到 2025 ,多模态领域还在不断刷新它的上限,似乎每次有新的模型升级,都能引发一次现象级的轰动,3月份,OpenAI
更新了 GPT-4o 的原生图像生成功能,能够精准复刻吉卜力工作室标志性的“高级灰”色调、水彩晕染质感、柔和的手绘线条以及充满生命力的场景细节。用户只需一句简单的指令——“convert to Studio Ghibli anime
”——便能将任何照片、自拍甚至历史场景在几秒钟内转化为仿佛出自宫崎骏之手的动画画面。
而近期,Google 发布的最新 Gemini 2.5 Flash Image(又名 Nano Banana)模型,又掀起了一波 “全民手办” 热潮。Nano Banana 能够精准还原人物的面部特征、表情和姿态,即使在多次编辑或场景切换中,也能保持主体的高度一致性,普通人借助它也可以秒变 PS 大师。
未来,随着这些能力的进一步融合,AI 将不仅能生成特定风格的视觉内容,还能创作连贯的叙事;不仅能复制外观特征,还能模拟行为模式。我们将迎来一个人机深度协作、虚拟与现实深度融合的新时代。而这,仅仅是个开始。
AI 开源和领域大模型
在 24 年以前,以 OpenAI
为首的美国科技公司推出的 LLM 和中国内地自己推出的 LLM 差距还比较明显,OpenAI、Google
等美国科技公司凭借先发技术积累、海量算力储备与高质量数据资源,在 LLM 领域形成了阶段性领先优势,在各种测评榜单上几乎看不到中国模型的身影,然而这些海外模型高昂的定价让一些小微企业和个人用户望而却步。以某平台当时的公开价格为例,GPT-4o 的输入/输出计费标准显著高于开源推理方案(具体价格会随时间变动,建议读者以平台最新价格为准)。
然而 25 年 DeepSeek R1 的出现彻底打破了这一局面。这个采用 MIT 开源协议的模型不仅完全开放权重和训练框架,更以仅 550 万美元的训练成本实现了接近闭源顶级模型的推理能力。
https://arxiv.org/pdf/2501.12948
它的低成本、高性能和开放生态的核心特征,不仅在技术层面实现了重大突破,也在全球 AI 产业格局、开源生态系统以及商业竞争格局等方面带来了重大影响:
首先就是 R1 的开源促进了全球 AI 技术的普惠化。传统 AI 大模型的训练与推理依赖高昂的算力投入,仅训练一次千亿参数模型就可能耗资数百万美元。这种 “重资产” 模式将中小企业与普通用户拒之门外。但现在,即使是没有能力自己训练大模型的公司也能低成本的部署和使用自己的 LLM,并且能够拥有接近顶尖闭源模型的效果。
这里最明显的一个例子就是腾讯了,早期腾讯在 LLM 的领域的表现非常迟钝(并非资金问题,更多在于模型研发与工程化能力积累的不足),一直没能训练出一个拿的手的模型,直到 R1 开源,腾讯开始在自己的全系产品上内置 DeepSeek R1
,这直接让 “腾讯元宝” 这款名不见经传的产品后来居上,成为腾讯另一款全民应用。
另外,对于普通用户来讲,只需要付出大概十分之一的价格就可以直接通过 API 调用模型,并且使用 Ollama 等客户端可以低成本的部署各种 “蒸馏版” 的模型,这进一步降低了个人用户搭建私人 AI 产品的门槛。
尽管 DeepSeek R1
在性能上可能已不再是开源模型中的顶尖选择,但正是它的横空出世,从根本上动摇了闭源模型的技术垄断格局。它向市场证明了低成本、高性能开源路线的可行性,迫使众多厂商调整策略,加速拥抱开源生态。可以说,当前开源社区的繁荣景象,R1 功不可没。比如早期的李彦宏说 “开源模型就是智商税”,但是百度现在也开始全面进行模型开源。一向鄙视开源模型的 OpenAI 后来也推出了自己的开源模型:GPT-OSS:
DeepSeek R1
的开源还掀起了一波垂直领域大模型的热潮,其实在 R1 开源之前,LLaMA
和 Qwen
一直是垂直领域模型训练的热门选择,各种大模型训练技术和开源框架的发展也让模型训练的门槛变得非常低了,不过更多的是具有相关专业技术背景的人在做。而 R1 的出现则让更多的普通大众也能够更加深入的认识和更多的接触到开源模型。
在上半年,我看到了一个很明显的现象是,各行各业的人们都想要开始尝试训练一个自己领域的专属大模型,这些人来自于金融、法律、医疗等各种领域,有很多人甚至完全没有技术背景,其中很多人开始尝试的动机只是因为老板们的一句话… 很多老板们的普遍思维是,大家都在部署和训练自己的大模型,我们也要抓住风口,不然就落后了。
另外 DeepSeek R1
的开源甚至还带火了一个新的行业的,叫 “模型一体机”,有段时间朋友圈很多人都开始推广这样的产品,一个硬件内包含了一个已经部署好的 DeepSeek R1
满血版模型,或者是训练好的垂直领域大模型。
这实际上就是将硬件和模型部署训练的技术进行打包售卖,不得不说老板们还是很吃这一套的,打造一个 “一体机” 其实技术门槛非常低,但安全合规的解决方案和企业级服务与担保是它最大的卖点。
AI 改变了传统的编码方式
2000 年到 2020 年,是互联网的黄金时代,也是 “程序员” 最值钱的时代,这个时期 “编程” 只是属于少数人的技能领域 — 传统编程的门槛不仅在于语法规则的记忆,还有逻辑拆解的复杂度、工具链的熟练使用,以及 “从需求到代码” 的转化能力。对非专业人士而言,哪怕只是实现一个简单的 “数据统计脚本”,都可能因语法错误、调试困难而半途而废。
曾经,哪怕你只会写 HTML + JavaScript + CSS
这老套的 “三剑客” 都能轻轻松松找到月入过万的工作。现在, 你会发现小学生们已经可以在编程比赛中熟练使用 Python、JavaScript
这些基础的脚本语言,已经退休的大爷大妈们都能让 AI 写出一个网页了,程序员的初级编程技能(如基础语法编写、简单 CRUD 接口开发)正在加速贬值。
其实早在 2021 年,GitHub 就发布了第一个 AI 辅助编程工具 Copilot
,基于 OpenAI
的 Codex 0.1
(基于 GPT-3 的早期微调版本)。我当时也是第一时间就下载体验了一下,只需要敲下一行注释,比如 “冒泡排序”,插件就能自动帮我提示出后面几行代码,我至今也忘不了当时的感觉,简直是打开了新世界的大门。
受制于模型本身能力的限制,它只能在一些简单的任务场景中给出代码提示,但却是切切实实的帮我在工作中提效了。不过这个时候其实很多同事都还不知道有这种东西,只有少数人在用确实有点开挂的感觉。
下一个关键的 AI 编程产品就是 Cursor
了,它在 2023 发布了第一个版本,使用的是现在大名鼎鼎的顶级编程模型 Claude
,不过是 Claude 1.0
版本,这是第一个基于 VsCode 二次开发的完整 AI IDE,额外增加了 AI 生成注释、AI 解读代码等功能。当时我也是第一时间去体验的,不过是为了白嫖模型,因为此时的 Copilot
已经开始收费了,但初期版本在使用体验上并没有比 Copilot
有多少提升。
真正让 Cursor
起飞是 2024 年 Claude 3.5 模型的发布,这个版本在代码生成、推理能力和工具使用上实现了非常显著的突破,在编程测评任务中超过了同期所有公开模型。也就是在这个时间点,似乎周围的同事都开始互相推荐 Cursor
,媒体平台上也开始出现很多 “教普通人用 AI 编程” 的自媒体账号。此后,Cursor
一飞冲天,短短几十人成立的公司估值直达百亿美金,各大厂也开始纷纷入局 AI 编程领域,Windsurf、TRAE
等 AI IDE 相继推出。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
而 Claude ,也正式确立了它在编程领域最强模型的王者地位,并且在此后一发不可收拾,Claude 3.7、Claude 4
更是一代比一代强,当下,很多模型的新版本发布时虽然都有强调编程能力的提升,比如 DeepSeek V3、Kimi K2
等等,但实际体验下来更多的是前端编程能力等提升,使用这些模型你可以轻松的构建一些精美的 HTML 网页。但真正到了一个复杂项目中,这些模型的能力和 Claude 还是有所差距的,在复杂的环境中,除了简单的代码生成能力,还要考验模型的工具调用、上下文理解以及推理能力。
目前仍然没有任何一个模型能够说在编程能力上与 Claude 比肩,这也让 Anthropic
也成为了目前为数不多的能够靠模型本身的某项能力在行业上进行垄断的 AI 科技公司,当传闻 OpenAI 有意收购 Windsurf
时,Anthropic
迅速采取了措施限制 Claude 模型在 Windsurf
上的使用,这对此后 Windsurf
的用户增长造成了显著影响。近期又直接放言 “东大” 是敌对国家,全面禁止 “东大” 通过任何途径使用,正是因为它在 AI 编程领域的不可替代性。
在今年早些时候,一个新的概念,Vibe Coding
(氛围编程)开始兴起,它最早是由 Andrej Karpathy
(人工智能领域极具影响力的科学家)提出,然后被大量地传播。
Vibe Coding 这个词的精妙之处在于揭示了 AI Coding 的本质,开发者不再关心底层的逻辑编排,而是跟着感觉走,按照自己的意图和想法去编码。比如我可以直接说 “帮我编写一个精美的电商网站”,而并不用在代码层面做精确的计算,也不用考虑很多技术细节。根据我的观察,在实际的企业工作中(特别是大型的互联网企业)Vibe Coding
已经完全取代了传统的编码方式,完全不依赖 AI 完成开发工作的人,已经基本看不到了。
但是,Vibe Coding
也在默默在其他方面也开发者们提出了不一样的要求,比如需求的理解和表达能力、对软件模块的高层次抽象能力、快速理解代码的能力(并非写代码)等等。如果你本身理解和表达能力比较差,Vibe Coding
或许还会降低你的开发效率;如果你本身对某类编程语言就不太熟悉,妄想直接借助 AI 开发一个大型项目,可能会被逼到发狂 … 反观如果你已经是某个编程领域的专家了,也拥有着非常好的架构和理解能力,Vibe Coding
的编码方式可以让你直接起飞,所以我们看到当下很多一人公司的兴起,AI 让你可以一个人在短时间内通过 AI 编写大量应用,并且快速实现盈利。
所以,对于 AI 编程是否能够取代程序员的话题,我的观点是这样的:AI 将加速初级程序员的贬值,并且将大幅削减企业对程序员的工作岗位需求,因为像 CRUD、绘制前端界面这些曾经由初级程序员承担的重复性工作,可以非常好的 AI 以更高效率、更低的成本接管。而市场会加大对真正有能力的高阶程序员的需求,系统架构、问题抽象、提示工程和与 AI 协作的能力变得愈发重要。这些人可以真正的借助 AI 实现能力的跃升,在某些业务岗位上甚至可以一人/少量的几个人抵原先的一个庞大团队。
最近,AI 编程领域又迎来了一个新宠:Claude Code
,在它面前,Cursor 也不香了。同样是基于最强的 Claude 模型,但它却采用了另外一种完全不一样的设计思路。
Claude Code
是一款纯粹的终端工具,没有图形界面、没有文件树、也没有按钮。只有一个命令提示符和一个能洞悉你整个项目的 AI。你告诉它需要完成什么任务。Claude 会读取你的代码库,向你展示它的计划,然后付诸执行。你会看着它处理文件、编写代码、运行测试,并修复出错的地方。它能自主运行,但会在关键节点与你进行确认。相比于 Cursor 这种提供完整 IDE 的,还是由人类主导使用的模式(人类主导:用户输入需求→AI 辅助生成代码片段→用户整合调试),Claude Code 的设计理念更偏向于AI主导的执行模式,用户仅需明确任务目标,AI 自主规划执行路径并处理中间环节问题,这与当前业界积极探索的 AI Agent(智能体)的发展方向高度一致。
AI 自主决策完成真实任务
25 年初,一款名叫 Manus 的产品刷爆了朋友圈,人们惊奇的发现,AI 居然不再是简单的对话机器人,而能够自主完成一些真实工作中的任务。不过短暂的热度过后,多款拥有类似效果的复刻品迅速推出,也让人们意识到,原来这种产品本身并没有什么技术壁垒,自此,AI Agent 开始成为 AI 市场上的新宠,各种 AI Agent 应用开始井喷式出现,2025 年也被大家称为 Agent 元年。
Agent
最大的特点就是可以像人类一样自主决策,传统的 LLM 应用需要人主动提出问题,并且一步步引导来得到最终答案,而 AI Agent
在接收到任务时,能自主判断‘是否需要调用工具’(如‘查询天气’需调用天气 API)、‘调用哪种工具’(如‘数据分析’选 Excel 工具而非绘图工具)、‘何时停止任务’(如获取到完整天气数据后终止调用)。
其实 AI Agent 的研究很早就已经开始了,只是前几年受限于模型能力,加上并没有像 Manus 这样破圈的产品,所以始终停留在 “小众实验” 阶段。这其中不得不提传奇人物姚顺雨,最近他正从 OpenAI 离职的新闻好像很有热度,Agent 贯穿了他到目前为止的整个学习和工作生涯:
- 2020 年,他在普林斯顿读博期间的第一项工作(CALM:Contextual Action Language Model),就是研究如何用语言模型来作为 Agent 来玩语言游戏。在 CALM 中,语言就像媒介:它把人类经验和语义模式转化为可操作的动作候选,同时承载上下文信息,使智能体在庞大的动作空间中高效决策。
https://arxiv.org/pdf/2010.02903
- 2022 年,姚顺雨团队提出了 ReAct(ReAct: Synergizing Reasoning and Acting in Language Models),核心思想是让大语言模型在解决复杂任务时,交替进行 “推理”(Reasoning)和 “行动”(Acting)。例如,在一个问答任务中,模型可能会先“思考”:“我需要查找X事件的日期”,然后“行动”:“调用搜索引擎查询‘X事件 发生时间’”,再根据返回结果进行下一步推理。ReAct 也因此成为了当下AI智能体最主流、最经典的工作模式。
https://arxiv.org/pdf/2210.03629
- 2023 年,姚顺雨团队发布 SWE-bench ,一个测试基准,它从一个真实的开源项目集合中抽取了真实的 GitHub Issue 和对应的 Pull Request。AI 想要完成测评,必须理解真实问题、在正确的代码位置、生成正确的代码修改。SWE-bench 将对 AI 的评估提升到了一个全新的水平,它模拟了软件工程师的日常真实工作,以此考察 AI 在真实工作环境中的能力,在当下依然会用作 Agent 能否解决真实代码问题的测评基准。
https://arxiv.org/pdf/2310.06770
- 2024 年发布的 SWE-agent 则是为攻克 SWE-Bench 而开发的 AI Agent,它能够像一个真实的软件工程师一样理解问题 -> 探索代码库 -> 定位问题 -> 实施修改 -> 测试验证。它证明了 工具调用 + 多轮交互是解决复杂编程任务的关键路径。现在很多 Coding Agent 的设计思路上还都能看到它的身影。
https://arxiv.org/pdf/2405.15793
可见,Agent 并非是 2025 年新出现的概念,我在前两年也看到过一些同事在研究 Agent 相关的工作,但很少有看到成功的案例,25 年 Agent 的爆发,除了靠一款爆款出圈产品的推动,我认为还有两个因素很重要:
- 第一个就是 LLM 本身的能力跃升,Agent 要自主做事,前提是 “能想明白、做得到”,LLM 提供的基础推理、上下文理解、工具调用稳定性等能力都非常重要,Claude、GPT 这些顶尖模型的旗舰版本让 Agent 的基座越来越稳定(如 Claude 成就了 Cursor 这样成功的产品),所以我们才能看到今年出了这么多亮眼的 Agent 产品。
- 另外,前文提到,Anthropic 推出的 MCP(Model Context Protocol) 统一了 LLM 与外部工具的交互标准,这一点对 Agent 也非常重要,工具是 Agent 依赖的核心能力,而 MCP 的出现让工具的开发门槛大幅降低,同时带来了一个空前繁荣的工具生态。
随着 Agent 的火热,又催生了一门新的学科:上下文工程(Context Engineering),如果说提示工程是教用户如何更好地提问”,那么上下文工程就是教开发者如何为 Agent 构建一个能自主思考的完美工作环境”。Agent 的决策质量,严重依赖于它所接收到的上下文信息是否全面、精准、结构化。
在 Agent 的工作流程中,往往需要和工具、用户进行多轮交互才能完成一个复杂的任务,而当下即使是最先进的模型,能够接受和理解的上下文也是有限的,而且随着上下文长度的增长,模型的性能也会逐步下降。所以上下文工程的核心,不再是编写单一的提示词,而是设计一套动态的信息供给系统。这包括如何将海量知识转化为 Agent 可检索的结构化信息,以及如何让 Agent 清晰地感知自身所处的环境和任务状态。这催生了新的开发范式,开发者不仅要写代码,更要为 Agent 设计知识库、规划信息流,甚至模拟工作记忆,让 Agent 在复杂任务中保持连贯的思考。
但是,虽然现阶段的 Agent 拥有了类似人类一样完成真实任务的能力,但它一定是局限在某个领域的,目前并不存在完全的通用 Agent,比如号称通用 Agent 的 Manus ,也只是在调研报告等部分领域上能够胜任,比如,在处理需要深度代码理解和复杂架构设计的编程任务时,其表现与 Claude Code 等专业工具有明显差距。而在网络安全这类对精确性、逻辑推理和领域知识要求极高的专业领域,其能力则显得尤为不足,难以胜任复杂的安全分析和漏洞挖掘工作。因为,即使是目前现在最先进的大模型,也无法做到同时驾驭大量工具。另外,长上下文下的稳定性、复杂决策中的幻觉问题、执行长任务链的错误累积都是当下的 AI Agent 还需要重点克服的问题。
未来是什么?通往 AGI ?
AI 的发展太快了,谁也不敢预测下一个突破会在何时、以何种形式到来。但无论技术如何演进,其终极目标始终指向同一个方向 — AGI。
AGI
(Artificial General Intelligence,通用人工智能)是人工智能领域的一个宏伟目标,指的是一种能够像人类一样理解、学习、推理和适应各种未知环境的AI系统。它并非局限于特定任务,而是具备广泛的认知能力,能够执行人类能够完成的任何智力任务。 目前的 AI Agent(人工智能体)虽然能在特定领域表现出色,但距离真正的 AGI 还有很长的路要走。下面这个表格汇总了从 AGI 的可能发展阶段(基于 Google DeepMind 提出的 AGI 等级框架):
https://arxiv.org/pdf/2311.02462
- Level 0 — No AI:完全由硬编码规则或 lookup table 驱动,没有任何机器学习成分。例如传统象棋小程序、早期电梯调度逻辑。
- Level 1 — Emerging(“涌现”):在广泛任务上刚刚达到或略优于“不熟练人类”水平;典型标志是“能聊但会错”。例如:ChatGPT 等对话大模型。
- Level 2 — Competent(“胜任”):对“至少 50% 的通用任务”达到熟练成年人中位水平,可靠性显著上升,幻觉率下降,可独立承担企业里常规白领工作。
- Level 3 — Expert(“专家”)在多个领域都能排进人类前 10%(≈ 超越 90% 熟练者),可生成专业级代码、科研综述、法律文书等,错误率低于行业平均。
- Level 4 — Virtuoso(“大师”):能力位于人类前 1%,跨学科创新与审美判断接近顶级学者或艺术大师,能在数学证明、药物设计、交响乐作曲等复杂创作任务中提出原创性成果。
- Level 5 — Superhuman(“超人”):全面超越 100% 人类,在几乎所有可验证认知任务上都比最顶尖专家更好、更快、更省成本;同时保持通用广度。
从能够执行特定任务的工具,到能够自主决策的智能体(Agent),我认为当下的 AI 技术已经普遍达到 Level 2 — Competent(“胜任”)的水准,正在努力的向 L3 迈进。
AI 正一步步逼近人类认知的边界。然而,真正的 AGI 并非仅仅意味着更强的能力,更意味着一种能够像人类一样理解、学习、适应并创造的综合智能。它不仅要解决已知的问题,更要面对未知的挑战。
当前的 AI 系统,哪怕是最先进的 Agent,仍然依赖于人类设定的框架与目标。它们在某些领域已展现出“胜任”甚至“专家”级的能力,但在更广泛的场景中,其可靠性、可解释性和安全性仍面临严峻考验。我们或许尚未看清终局,但可以确定的是:未来的竞争不再是单个模型或算法的竞争,而是生态、标准与价值观的竞争。开源与闭源的道路仍在交锋,全球协作与技术壁垒的矛盾日益凸显。而在这样的浪潮中,我们每一个人既是见证者,也是参与者。
或许,AGI 并非一个遥远、孤立的终点,而是一个渐进的过程。它不会在一夜之间降临,而是会像 Level 2 到 Level 3 的演进一样,悄无声息地融入我们的生活,成为我们工作、创造和思考的底层操作系统。未来已来,它只是尚未均匀分布。而我们,正是这宏大变革的第一代见证者与参与者。前路漫长,但方向已然清晰。
以上,就是我对这几年 AI 技术演进关键节点的个人见解,并不保证全面、但力求呈现技术浪潮背后的逻辑与思考,希望你阅读完能够拨开云雾,对 AI 技术发展的脉络有更清晰的认识。
最后
关注《code秘密花园》从此学习 AI 不迷路,相关链接:
- AI 教程完整汇总:https://rncg5jvpme.feishu.cn/wiki/U9rYwRHQoil6vBkitY8cbh5tnL9
- 相关学习资源汇总在:https://github.com/ConardLi/easy-learn-ai
个遥远、孤立的终点,而是一个渐进的过程。它不会在一夜之间降临,而是会像 Level 2 到 Level 3 的演进一样,悄无声息地融入我们的生活,成为我们工作、创造和思考的底层操作系统。未来已来,它只是尚未均匀分布。而我们,正是这宏大变革的第一代见证者与参与者。前路漫长,但方向已然清晰。
以上,就是我对这几年 AI 技术演进关键节点的个人见解,并不保证全面、但力求呈现技术浪潮背后的逻辑与思考,希望你阅读完能够拨开云雾,对 AI 技术发展的脉络有更清晰的认识。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)