
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大规模语言模型(LLMs)驱动了以ChatGPT为代表的新一代交互式AI应用。这类应用的交互特性要求LLM推理具备低延迟特性。现有LLM服务系统对推理任务采用运行至完成的处理模式,存在队头阻塞问题且导致延迟较高。本文提出FastServe——一个面向LLMs的分布式推理服务系统。该系统利用LLM推理的自回归特性,实现了以单个输出令牌为粒度的抢占机制。通过采用具备跳过连接功能的多级反馈队列调度器,F
不要把大模型当成不知疲倦的阅读者,要把大模型当成一个聪明的程序员。让它帮你造工具,而不是让它帮你干苦力。FastRAG 目前是一个**“偏科”但“特长突出”的优等生。它在特定领域(运维数据)把性价比做到了极致。未来的发展方向是提高它的鲁棒性**(防格式变更)和智商(增加推理能力),使其不仅能“解析数据”,还能真正“理解数据”。如果用一句话概括 DyG-RAG 的独特之处:它赋予了 RAG 系统“时
AlayaDB 是 AlayaDB AI 开发的一款尖端向量数据库系统,其原生架构旨在实现大语言模型(LLM)的高效且有效的长上下文推理。具体而言,它将 KV Cache(键值缓存)和 Attention(注意力)计算从 LLM 推理系统中解耦,并将它们封装到一个新颖的向量数据库系统中。对于模型即服务(MaaS)提供商而言,与现有的替代方案(如 KV Cache 分离、基于检索的稀疏注意力)相比,
摘要: DroidSpeak提出了一种面向同源微调LLM的KV缓存共享技术,通过实证研究发现仅约10%的层(关键层)对跨模型缓存复用敏感。系统采用选择性重计算策略:对关键层进行局部重计算,复用其余非关键层KV缓存,在保证生成质量(F1/Rouge-L损失<5%)的同时显著提升性能。实验表明,相比全量预填充方案,DroidSpeak实现预填充阶段1.7-3.1倍加速,吞吐量提升达4倍。其核心创
AlayaDB 是 AlayaDB AI 开发的一款尖端向量数据库系统,其原生架构旨在实现大语言模型(LLM)的高效且有效的长上下文推理。具体而言,它将 KV Cache(键值缓存)和 Attention(注意力)计算从 LLM 推理系统中解耦,并将它们封装到一个新颖的向量数据库系统中。对于模型即服务(MaaS)提供商而言,与现有的替代方案(如 KV Cache 分离、基于检索的稀疏注意力)相比,
大语言模型(LLM)代理能够代表用户操作和分析数据,这很可能成为未来数据系统的主流工作负载。在处理数据时,代理会采用一种高吞吐量的探索和方案制定过程来完成既定任务,我们将这种过程称为代理推测(agentic speculation)。代理推测的巨大体量和低效性可能会给当今的数据系统带来挑战。我们认为,数据系统需要进行调整,以更原生得支持代理工作负载。利用我们所识别出的代理推测的特征——即。
大规模语言模型(LLMs)驱动了以ChatGPT为代表的新一代交互式AI应用。这类应用的交互特性要求LLM推理具备低延迟特性。现有LLM服务系统对推理任务采用运行至完成的处理模式,存在队头阻塞问题且导致延迟较高。本文提出FastServe——一个面向LLMs的分布式推理服务系统。该系统利用LLM推理的自回归特性,实现了以单个输出令牌为粒度的抢占机制。通过采用具备跳过连接功能的多级反馈队列调度器,F








