
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要(150字) 本文探讨API版本管理与演进策略,特别关注LLM场景下的"契约漂移"问题。核心观点:1) API版本应明确标识在URL路径中(如/v1/),便于人和机器识别;2) 修改分为三类:安全扩展、行为变更和破坏性变更,后者需创建新版本路径;3) 使用Sunset、Deprecation等标准响应头实现机器可读的版本生命周期管理;4) 强调代码、文档、工具描述等资产需同

Gemma 1模型架构解析 Gemma 1是基于Decoder Only Transformer架构的开源语言模型,采用现代LLM设计范式,包括RMSNorm、RoPE位置编码和GeGLU前馈网络等关键技术。模型提供2B和7B两种规模,主要区别在于: 2B版本使用MQA(多头查询注意力)以提升推理效率 7B版本采用标准MHA(多头注意力) 均使用GeGLU替代传统FFN中的ReLU激活 核心流程:

摘要:RoPE(Rotary Position Embedding)通过几何旋转将位置信息编码进注意力分数,替代传统的位置向量加法。其核心设计让点积计算仅依赖相对位置距离,符合自回归模型需求。本文从动机出发,推导二维旋转公式如何实现相对位置编码,并分析其与经典位置编码的差异。进一步探讨长度外推问题,介绍YaRN等方案如何通过调整旋转频率适应长文本场景,并与LLaMA、Qwen等主流架构实现兼容。R

**本篇为系列第三篇**:前两篇分别谈了**能力端点**与 **JSON Schema 硬契约**;本篇聚焦**响应体形态**——在契约已成立的前提下,仍要避免「能校验却难理解」的嵌套与命名,让解析与链式调用更省心。**摘要**:深层嵌套、缩写键名、同一语义多种字段名、金额与布尔用字符串承载,都会增加模型解析负担与幻觉风险。采用**扁平或浅层**结构、**稳定且可预期的 snake_case 全名

摘要:本文解析Qwen2模型架构,重点说明其相对Qwen1的四大改进:(1) 全系列采用GQA(分组查询注意力)替代MHA;(2) 通过调整RoPE基频(10^4→10^6)、引入YARN和DCA技术,将上下文窗口扩展至128K;(3) 小模型(0.5B/1.5B)使用嵌入绑权策略,大模型(7B/72B/MoE)不绑权;(4) 新增MoE变体(57B总参,激活约14B参数)。文章详细拆解了Toke

摘要(149字):本文探讨面向LLM/Agent的API设计策略,指出通用问答接口(如/ask)存在语义模糊、调用不稳定等问题,提出采用能力端点(如/summarize-document)的解决方案。通过结构化输入输出契约,使模型能精准选择能力,减少误用和幻觉。文章对比两种设计差异,提供FastAPI实现的示例项目,展示端点命名、参数约束等核心原则,并配套完整文档说明架构设计与实践方法。最终论证能

摘要:本文提出 SkillToolset 式设计,将 Skill 能力通过三个工具(list_skills、get_skill_details、load_skill_resource)实现按需加载。相比图节点驱动的三级加载方案,本模式由 Agent 自主决策工具调用时机,更贴近 ADK SkillToolset 原始语义。案例演示了基于 LangChain Tools + LangGraph 的

摘要:本文提出 SkillToolset 式设计,将 Skill 能力通过三个工具(list_skills、get_skill_details、load_skill_resource)实现按需加载。相比图节点驱动的三级加载方案,本模式由 Agent 自主决策工具调用时机,更贴近 ADK SkillToolset 原始语义。案例演示了基于 LangChain Tools + LangGraph 的

本文介绍了AI Agent(人工智能代理)的核心概念和架构。AI Agent是一种能够感知环境、处理信息并自主执行任务的智能系统,其设计灵感来源于人类思维模式。文章详细阐述了AI Agent的三大基本步骤(观察、推理、行动)和四大核心模块(规划、记忆、行动、工具),并通过AgentExecutor解释了执行循环机制。同时,文章还讲解了OpenAI API的基础调用方式,包括如何实现记忆功能,并引入

本文介绍如何在 LangGraph 中实现 Exception Handling(异常处理)与 Recovery(恢复)。**案例介绍**:配套 demo 实现一个带**反思**的健壮位置查询智能体——主查询失败时先反思(分析失败原因、生成改进查询),再用改进查询重试主任务;仍失败则 fallback 粗略查询,实现优雅降级。提供 `main.py` 命令行演示;支持通过环境变量 `SIMULAT








