logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent如何架构选型?8个问题吃透Agent技术栈选型

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

文章图片
#人工智能#架构#语言模型
AI Agent如何架构选型?8个问题吃透Agent技术栈选型

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

文章图片
#人工智能#架构#语言模型
AI Agent如何架构选型?8个问题吃透Agent技术栈选型

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

文章图片
#人工智能#架构#语言模型
AI Agent如何架构选型?8个问题吃透Agent技术栈选型

解决什么业务?——应用层:技术驱动 → 场景驱动怎么避免裸奔?——AI工程层:AI原型 → AI产品流程怎么编排?——工作流层:单步执行 → DAG控制用什么框架搭建?——框架层:造轮子 → Agent SDK怎么学会思考?——认知层:直给回答 → 结构化推理上线怎么监控?——可观测层:黑盒盲猜 → 全链路可观测怎么记住东西?——Memory/RAG层:失忆聊天 → 持久记忆模型怎么选型?——运行

文章图片
#人工智能#架构#语言模型
MoE混合专家模型是什么?一篇文章给你讲清楚!

摘要:MoE(混合专家)模型通过门控机制动态激活特定专家模块,显著降低计算成本。以阿里Qwen系列为例,A*B命名规则中的B代表激活参数数量(如A3B为30亿),而非总参数量。该架构仅激活任务相关专家(如300亿总参数中激活30亿),在保持模型能力的同时优化资源利用。开发者可通过API参数调整专家选择,并利用SGLang等框架实现动态管理。MoE模型通过"分治"策略,以更少计算

文章图片
#人工智能#语言模型
十大 Agent 框架全解析,建议收藏!

本文系统梳理了当前主流多智能体框架,按学习、开发、生产三个层级进行分类评估。学习级框架(如Swarm)适合入门但功能有限;开发级框架(如OpenAI Agents SDK、Qwen-Agent)提供灵活原型开发能力;生产级框架(如MetaGPT、Dify)具备企业级部署功能。分析显示,框架选择需权衡易用性、扩展性、性能与企业需求,且各框架在模型兼容性、安全机制等方面存在明显差异。建议开发者根据实际

文章图片
#人工智能#语言模型
一文讲清:AI大模型对话的本质、Token、上下文窗口以及模型评估方法

大模型对话本质是单向请求-响应机制,Token作为文本处理的基本单位直接影响使用成本和效率。本文解析了对话机制、上下文窗口限制和Token计费规则,指出中文比英文消耗更多Token,并对比了主流模型的优劣势。关键发现包括:上下文窗口决定模型"记忆"能力,输出Token价格是输入的3-5倍,Claude 4.6取消了长上下文额外收费。文章提供了Prompt缓存、批量接口等实用省钱

文章图片
#人工智能#语言模型
一文吃透 Prefill、Decode 与 KV Cache,建议收藏!

大语言模型推理延迟可分为Prefill和Decode两个阶段:Prefill阶段依赖显卡算力,决定首字符生成时间;Decode阶段受限于显存带宽,影响后续字符输出流畅度。模型通过字符拆分、向量转换和注意力机制逐字生成内容,KV缓存机制可提升长文本生成效率但会占用显存。当前优化重点已转向降低KV缓存占用,如采用INT4量化、分页注意力等技术。DeepSeek-V4等新型模型通过优化缓存机制,显著减少

文章图片
#人工智能#语言模型
如何通俗讲清 Transformer?内行人都这么回答!

最近带着团队做AI相关项目,总有人来问我,Transformer到底是什么,它和GPT、BERT还有注意力机制之间又是什么关系。其实不是大家理解能力不够,而是一直没人用大白话把这些内容讲透彻。

文章图片
#transformer#深度学习#人工智能
AI大模型推理框架,vLLM和SGLang有什么区别?

SGLang与vLLM大模型推理框架对比分析 SGLang专为高并发和复杂任务设计,在多轮对话、格式化输出等场景表现优异,其RadixAttention技术可提升缓存复用率3-5倍。vLLM则在单轮推理场景优势明显,采用PagedAttention技术实现高效内存管理。测试数据显示,SGLang在高并发下吞吐量更稳定,而vLLM在首字响应速度上更快。选择建议:复杂交互选SGLang,简单高并发选v

文章图片
#人工智能
    共 379 条
  • 1
  • 2
  • 3
  • 38
  • 请选择