
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本次分享主要介绍 Data Agent 产品能力,适用场景和客户案例,适合首次接触 Data Agent 的用户快速了解产品全貌。

虽然「死了么」APP的场景并不是特别复杂,但是也向我们展示了完整的AI编码技术选型的最佳实践。AI编码前端的能力远远强于后端,一方面,模型需要提高对后端的编码能力,另一方面,通过减少后端编码,依托于ADB Supase等BaaS服务,让前端直接变成全栈,也不失为一种围魏救赵的解法。尤其是在AI时代,各种想法加速落地MVP,尽可能让研发聚焦业务本身逻辑,反而显得更加重要。

虽然「死了么」APP的场景并不是特别复杂,但是也向我们展示了完整的AI编码技术选型的最佳实践。AI编码前端的能力远远强于后端,一方面,模型需要提高对后端的编码能力,另一方面,通过减少后端编码,依托于ADB Supase等BaaS服务,让前端直接变成全栈,也不失为一种围魏救赵的解法。尤其是在AI时代,各种想法加速落地MVP,尽可能让研发聚焦业务本身逻辑,反而显得更加重要。

由于 LLM 服务后端不断接受新的推理请求,因此如何在每一次推理之前,决定请求的调度顺序是框架核心考量要素之一。Prefill 优先:以 SGLang 为代表,新请求到达时,暂停先前请求的 decode 过程,优先执行新请求的prefill 过程,执行完新请求后,与原有的 Decode 请求组成更大的 Batch 继续后续的推理。如此可以最大化系统吞吐,但同时也会导致 TPOT 出现较大的波动。
由于 LLM 服务后端不断接受新的推理请求,因此如何在每一次推理之前,决定请求的调度顺序是框架核心考量要素之一。Prefill 优先:以 SGLang 为代表,新请求到达时,暂停先前请求的 decode 过程,优先执行新请求的prefill 过程,执行完新请求后,与原有的 Decode 请求组成更大的 Batch 继续后续的推理。如此可以最大化系统吞吐,但同时也会导致 TPOT 出现较大的波动。
Tair KVCache 是阿里云推出的面向大语言模型推理场景的缓存加速服务,基于分布式内存池化和分级缓存体系,解决显存墙与带宽瓶颈问题。为万亿参数模型的高效推理提供技术保障,推动 AI 算力进化与规模化应用。

在大语言模型推理服务迈向长上下文、多模态交互与智能体化的新阶段,传统架构的局限性日益凸显。Transformer 模型凭借其注意力机制在语义建模上表现卓越,但其计算开销随序列长度呈平方级增长,KVCache 内存占用线性膨胀,其在超长文本、持续对话等场景下面临显存限制与算力瓶颈。与此同时,以Mamba 为代表的状态空间模型通过线性计算复杂度和恒定的内存消耗开辟了新路径,但其有限的状态容量与不可逆的

云原生数据仓库 AnalyticDB PostgreSQL 版 Supabase 是基于开源 Supabase 深度增强的全托管平台,兼容 Supabase 生态,提供数据库、用户认证、边缘函数等核心能力,并集成通义千问等 AI 模型,支持 Vibe Coding 与智能应用快速开发。

在大语言模型的推理阶段,生成式推理本质上遵循自回归范式:模型按顺序逐个输出 token,每一步的预测都依赖于此前已生成的所有内容。这种机制虽然有助于维持输出的语义一致性,却也引入了明显的计算冗余——尤其是在注意力机制中,Key(K)和 Value(V)向量的重复计算成为性能瓶颈。具体来说,每当生成一个新的 token 时,模型需将其对应的 Query(Q)与所有历史 token 的 K 和 V 进

本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理







