登录社区云,与社区用户共同成长
邀请您加入社区
LoRA通过低秩分解,只需要训练极少量的附加参数(通常是原模型参数的0.1%-1%),就能在特定任务上达到接近全量微调的效果。这意味着:- 在消费级GPU上(24GB VRAM)可以微调7B甚至13B参数模型- 微调时间从几天缩短到几小时- 多个任务的LoRA权重可以单独管理,随时切换- 部署时可以与基础模型合并,不增加推理开销本文将从工程实践角度,给出LoRA微调的完整指南,覆盖数据准备、训练配
但在生产系统中,你的下游代码需要的不是一段流畅的自然语言,而是可解析的、格式固定的结构化数据。:如果用本地模型,Outlines的约束解码比提示词方式可靠100倍结构化输出是LLM工程化的基础设施,掌握它,你的AI应用才能真正稳定地运行在生产环境中。—## 四、本地模型的结构化输出:Outlines当你使用Llama、Qwen、Mistral等本地模型时,无法依赖云端API的结构化输出能力。:越复
## 三、上下文管理:解决Vibe Coding最大痛点长时间的Vibe Coding会话中,最常见的问题是"AI开始忘事"——它不再记得项目的架构决策,开始生成与现有代码风格不一致的代码,甚至引入已经修复过的bug。——在享受AI编程加速的同时,建立可持续的代码质量保障体系。—## 一、Vibe Coding的工程化核心:Context Engineering如果说Vibe Coding的核心操
LoRA(Low-Rank Adaptation)在2026年已经是工程师工具箱中的标配技能。它让在消费级GPU上微调70B甚至更大的模型成为可能,让企业可以用远低于全量微调的成本打造专属模型。但从"能跑起来"到"生产可用",中间还有很长的工程化路径。本文覆盖2026年LoRA工程实践的全链路。
Vibe Coding这个词在2025年开始流行,到2026年已经成为开发者日常工作的一部分。但"Vibe Coding"这个名字带来了一个严重的误解——很多人以为它就是随便用AI写写代码、玩玩原型的事。本文要讨论的是另一个问题:当你需要用AI辅助编程构建真正需要维护的生产系统时,工程化的实践方法是什么。
# 方法一:原生结构化输出(首选)OpenAI、Anthropic等主流模型现在都支持原生的结构化输出,通过在API层面约束输出格式,可靠性比提示词方法高得多。JSON格式对了,但字段值是模型"编的"——比如要求输出置信度(0-1之间的数字),模型输出了0.99999,看起来没问题,其实是没有根据的。LLM的输出天然是自由形式的文本,但AI应用需要的往往是结构化数据。字符串里包含未转义的特殊字符,
创建 .claude 目录 New-Item -ItemType Directory -Force "$env:USERPROFILE\.claude" # 用记事本打开配置文件 notepad "$env:USERPROFILE\.claude\settings.json"写一个Python计算器程序,支持加减乘除,可直接运行,带中文注释和使用说明。#在 PowerShell 中以管理员身份运行
## 实际效果根据团队实践经验,引入这套体系后:- 安全漏洞(SQL 注入、硬编码密钥):几乎降为零- 缺少错误处理的问题:减少 80%- Code Review 时间:减少约 40%(AI 先做一轮过滤)- 生产 Bug 率:降低约 30%最重要的是,开发者的注意力从"找低级问题"转向"评估设计合理性",Review 质量反而提高了。—## 总结让 AI 代码更可靠,不是单点技术问题,是工程体系
## 工程师选择建议### 选Cursor,如果你:- 主要工作是阅读代码、小范围修改、代码补全- 喜欢IDE集成体验,不想离开编辑器- 需要确定性的月度费用- 团队中有不同技术栈的工程师(Cursor支持更多语言)### 选Claude Code,如果你:- 需要完成复杂的自主任务:大型重构、多文件修改、调试- 经常在终端工作,不需要GUI- 愿意让AI更多地"自主行动"- 构建的是复杂的后端系
原始查询:{original_query}输出格式(JSON):{{“queries”: [“改写查询1”, “改写查询2”, “改写查询3”]}}””"}])import jsonresult = json.loads(response.content[0].text)return result[“queries”]本文不做横评,专注于Claude 4的工程实践:从API接入到工具链设计,从上下
简洁明确的Prompt能减少模型"思考"token的消耗—## 总结Gemini 2.5 Pro的工程价值在于:把之前需要复杂RAG系统才能处理的长文档任务,简化成了直接输入。意味着你可以把整个代码仓库塞进去分析,可以把完整的法律合同包发给它审查,可以让它处理长达几小时的会议记录——而不需要复杂的分块和向量检索。### 原则三:长上下文的"丢失现象"处理研究发现,即使是支持百万token的模型,对
代码正确性。
人类有工作记忆、情节记忆、语义记忆和程序性记忆——这四类记忆协同工作,让我们能够在不同时间尺度上有效地学习和行动。AI Agent 的记忆系统设计,本质上是对人类认知系统的工程化模仿。本文从记忆类型分类到完整实现,带你构建一个真正「有记忆」的 AI Agent。 一、为什么记忆是 Agent 的核心能力?无记忆的 Agent 每次对话都从零开始,表现得像「金鱼」——永远只记得最近几秒。这导致:-
Agent可能在测试时表现良好,在生产中遇到边界输入时出现意外行为本文将系统讲解AI Agent的测试策略,从单元测试到端到端测试,从功能测试到安全测试。:持续采样评估,及时发现质量退化Agent测试没有银弹,但有了系统化的测试策略,可以把"不知道Agent什么时候会翻车"变成"在可接受的风险范围内稳定运行"。—## 五、端到端场景测试端到端测试是最有价值但也最昂贵的测试类型。—## 三、LLM组
考虑这样的场景:一个AI Agent被委托"分析我们公司Q1的销售数据,找出TOP10客户,生成详细报告,并制定下季度的客户维护策略"。这个任务需要:- 多个步骤的顺序执行- 在步骤之间传递数据- 在某步骤失败时恢复,不从头开始- 支持人工在某步骤介入审查- 任务可能跨越多个会话(今天开始,明天继续)## 用LangGraph实现有状态的Agent工作流LangGraph是目前最成熟的有状态Age
## 原则二:描述是工具的说明书,要写给LLM看工具的描述(docstring/description)是LLM决定是否调用这个工具的唯一依据。这种设计让Agent在简单场景用高层工具一步完成,在复杂场景(如高层工具失败)能灵活组合底层工具。—## 原则四:返回结构化、信息丰富的结果工具的返回值是LLM下一步推理的输入。给它配上工具,它能:查询数据库、调用API、读写文件、发送邮件、执行代码——本
一个没有状态管理的 Agent 是"随机游走"的 Agent。状态机(State Machine)是解决这些问题的经典方法:通过明确定义 Agent 的所有可能状态、状态间的转换条件和转换动作,让 Agent 的行为从"不可预测"变为"可理解、可调试、可控制"。LangGraph 在 2026 年已成为构建有状态 Agent 的主流框架,但其核心理念——图结构状态机——才是真正需要理解的工程思维。
将复杂任务分解给多个专业化Agent并行处理,由协调者Agent(Orchestrator)负责调度和结果整合。LangGraph、AutoGen、CrewAI的成熟,让多智能体系统的构建成本大幅降低。本文从架构设计角度,深度讲解如何构建生产级多智能体系统。:需要高准确性、多视角分析的场景(投资分析、风险评估)—## 二、使用LangGraph构建多智能体系统### 2.1 研究报告生成系统。:每
在2026年,随着MCP(Model Context Protocol)协议标准化、Tool Calling API的成熟,"工具编排工程"已成为AI应用开发中最关键的技能之一。本文从实战角度,系统讲解如何设计工具、编排工具调用链,并处理复杂的多工具协作场景。—## 一、工具设计原则:让AI能"理解"你的工具### 1.1 工具描述的黄金法则。—## 四、MCP协议:工具生态的未来### 4.1
## 技术选型:记忆存储后端| 存储类型 | 适合什么 | 推荐方案 ||---------|---------|---------|| 向量数据库 | 语义搜索、模糊回忆 | Qdrant, Weaviate, Chroma || 关系型数据库 | 结构化事实、用户偏好 | PostgreSQL, SQLite || 图数据库 | 实体关系网络 | Neo4j, Amazon Neptune |
真实世界的任务需要:多步骤规划、工具调用、条件分支、并行执行、状态持久化……:逻辑清晰、复杂度适中的工作流框架是工具,不是目的。真正重要的是:系统能稳定运行,出了问题能快速定位——这才是工程化的本质。## 四、何时用框架,何时裸写### 4.1 框架的真实成本框架带来的问题:-:LangGraph的图概念、LlamaIndex的事件系统各有学习曲线-:节点是处理步骤,边是条件路由,State是在节
## 上下文的四个层次理解上下文工程,首先要厘清上下文的构成。一个完整的LLM上下文由以下四个层次组成:### 1. 系统层(System Layer)这是最持久的上下文,定义Agent的身份、能力边界、行为准则和输出格式。优秀的系统层应该:- 明确角色定义(是什么,不是什么)- 声明约束条件(禁止做的事)- 规定输出格式(JSON schema、markdown结构等)- 提供少量高质量示例(f
就像USB-C让不同设备之间的物理连接标准化一样。
真正有用的AI Agent必须能"记住"。记住用户偏好、历史决策、工具使用经验——这就是Agent记忆系统的核心价值。本文从工程角度系统介绍如何构建一个生产级的Agent记忆架构。 一、为什么Agent记忆如此关键想象两个场景:场景A(无记忆):用户告诉Agent"我喜欢用Python,代码风格参考PEP8"。下次对话,Agent完全不记得,又开始用Jav
工具调用是AI Agent最脆弱的环节。一个在Demo中完美运行的Agent,在生产环境中常因工具错误而崩溃。本文系统梳理工具调用的错误类型、重试策略与容错架构,帮你构建真正可靠的AI Agent。 一、工具调用错误的三大类型在构建AI Agent的过程中,工具调用错误几乎不可避免。这些错误大致可以分为三类:### 1.1 临时性错误(可重试)- 网络超时、连接断开- 第三方API限速(429
## 工具调用质量监控| 指标 | 描述 | 目标 ||------|------|------|| 工具调用成功率 | 调用成功次数/总次数 | > 95% || 参数错误率 | 参数验证失败的比例 | < 5% || 平均工具调用次数/任务 | 完成一个任务平均调用几次工具 | < 5次 || 工具调用超时率 | 超时次数/总次数 | < 1% || 不必要工具调用率 | 多余工具调用的比例
## 记忆的四个层次Agent的记忆体系可以分为四个层次,每一层的存储介质、访问速度、生命周期都不同:### 1. 上下文窗口记忆(In-Context Memory)这是最直接的记忆形式——把对话历史直接塞进提示词里。### 3. 语义检索记忆(Semantic/Vector Memory)对于长期积累的知识,需要用向量数据库实现语义检索——不是"最近的记忆",而是"最相关的记忆"。:只存储真正
核心工具python# 入门阶段必须熟练掌握的技术栈tools = { "LLM API": ["OpenAI", "Anthropic", "通义千问"], "框架": ["LangChain(基础使用)"], "向量数据库": ["Chroma(本地开发用)", "Pinecone(生产用)"], "Web框架": ["FastAPI"], "环境管理": ["conda", "venv",
你负责架构和意图### Code Review中的AI审查。
本教程系统介绍了VIC水文模型输入数据的完整制备流程。主要内容包括:1)VIC模型核心输入文件概述;2)使用Python统一处理各类空间数据,包括网格生成、地形数据提取、气候态降水计算;3)基于HWSD土壤数据和MODIS植被数据分别制备土壤参数和植被参数;4)利用MERRA-2数据生成强迫文件;5)全局文件配置及模型安装运行说明。教程提供了详细的代码实现和数据处理方法,适用于0.1°×0.1°空
## 反模式3:直接粘贴AI代码到生产永远先在本地跑一遍,跑测试,审查一遍,再merge。—## Vibe Coding的反模式### 反模式1:无限接受AI的建议AI永远会给你一个"看起来能跑的"答案。—## 工作流的三个阶段### 阶段一:意图结晶(Crystallization)在动手写任何代码之前,先把需求说清楚——不是给人听,是给AI听。—## Vibe Coding不是"偷懒",是换一
摘要 本报告分析了QuoteApp智能报价系统的设计与实现情况。该系统面向中小机加工企业,通过AI自动解析图纸特征并计算加工成本,将传统2-3天的报价周期缩短至30分钟。核心功能包括:支持7种图纸格式解析、3D预览引擎、13步成本核算公式链、本地Gemma+云端AI双推理引擎等。系统包含129个Python文件(37,261行代码),UI模块占比44.9%。开发周期36天,提交70次,但存在三大风
有GPU?├── 是 → 需要最高质量?│ ├── 是 → AWQ INT4(vLLM部署)│ └── 否 → BitsAndBytes NF4(快速实验)└── 否 → GGUF Q4_K_M(llama.cpp CPU推理)模型要微调?└── 是 → BitsAndBytes NF4 + QLoRA(4位基础 + LoRA微调)
Context Engineering(上下文工程)错误做法pythonasync def summarize_for_context(long_text: str, focus: str, max_words: int = 300) -> str: """将长文本压缩为聚焦于特定主题的摘要""" prompt = f"""请将以下内容压缩为不超过{max_words}字的摘要。重点保留与"{fo
DeepSeek多模态、GPT-5多模态、Gemini 3……2026年,多模态已不再是"加分项",而是AI应用的标配能力。本文从工程视角系统讲解多模态大模型的核心技术与实战部署。 多模态大模型2026年全景2026年初,主流多模态大模型格局:| 模型 | 支持模态 | 上下文长度 | 开源状态 ||—|—|—|—|| GPT-5 | 文本/图像/音频/视频 | 256K |
python3.11
——python3.11
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net