
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

摘要:MoE(混合专家)模型通过门控机制动态激活特定专家模块,显著降低计算成本。以阿里Qwen系列为例,A*B命名规则中的B代表激活参数数量(如A3B为30亿),而非总参数量。该架构仅激活任务相关专家(如300亿总参数中激活30亿),在保持模型能力的同时优化资源利用。开发者可通过API参数调整专家选择,并利用SGLang等框架实现动态管理。MoE模型通过"分治"策略,以更少计算

本文系统梳理了当前主流多智能体框架,按学习、开发、生产三个层级进行分类评估。学习级框架(如Swarm)适合入门但功能有限;开发级框架(如OpenAI Agents SDK、Qwen-Agent)提供灵活原型开发能力;生产级框架(如MetaGPT、Dify)具备企业级部署功能。分析显示,框架选择需权衡易用性、扩展性、性能与企业需求,且各框架在模型兼容性、安全机制等方面存在明显差异。建议开发者根据实际

大模型对话本质是单向请求-响应机制,Token作为文本处理的基本单位直接影响使用成本和效率。本文解析了对话机制、上下文窗口限制和Token计费规则,指出中文比英文消耗更多Token,并对比了主流模型的优劣势。关键发现包括:上下文窗口决定模型"记忆"能力,输出Token价格是输入的3-5倍,Claude 4.6取消了长上下文额外收费。文章提供了Prompt缓存、批量接口等实用省钱

大语言模型推理延迟可分为Prefill和Decode两个阶段:Prefill阶段依赖显卡算力,决定首字符生成时间;Decode阶段受限于显存带宽,影响后续字符输出流畅度。模型通过字符拆分、向量转换和注意力机制逐字生成内容,KV缓存机制可提升长文本生成效率但会占用显存。当前优化重点已转向降低KV缓存占用,如采用INT4量化、分页注意力等技术。DeepSeek-V4等新型模型通过优化缓存机制,显著减少

最近带着团队做AI相关项目,总有人来问我,Transformer到底是什么,它和GPT、BERT还有注意力机制之间又是什么关系。其实不是大家理解能力不够,而是一直没人用大白话把这些内容讲透彻。

SGLang与vLLM大模型推理框架对比分析 SGLang专为高并发和复杂任务设计,在多轮对话、格式化输出等场景表现优异,其RadixAttention技术可提升缓存复用率3-5倍。vLLM则在单轮推理场景优势明显,采用PagedAttention技术实现高效内存管理。测试数据显示,SGLang在高并发下吞吐量更稳定,而vLLM在首字响应速度上更快。选择建议:复杂交互选SGLang,简单高并发选v








