logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Fast Distributed Inference Serving for Large Language Models

大规模语言模型(LLMs)驱动了以ChatGPT为代表的新一代交互式AI应用。这类应用的交互特性要求LLM推理具备低延迟特性。现有LLM服务系统对推理任务采用运行至完成的处理模式,存在队头阻塞问题且导致延迟较高。本文提出FastServe——一个面向LLMs的分布式推理服务系统。该系统利用LLM推理的自回归特性,实现了以单个输出令牌为粒度的抢占机制。通过采用具备跳过连接功能的多级反馈队列调度器,F

#语言模型#人工智能#自然语言处理
GraphRAG论文分享(阶段一)

不要把大模型当成不知疲倦的阅读者,要把大模型当成一个聪明的程序员。让它帮你造工具,而不是让它帮你干苦力。FastRAG 目前是一个**“偏科”但“特长突出”的优等生。它在特定领域(运维数据)把性价比做到了极致。未来的发展方向是提高它的鲁棒性**(防格式变更)和智商(增加推理能力),使其不仅能“解析数据”,还能真正“理解数据”。如果用一句话概括 DyG-RAG 的独特之处:它赋予了 RAG 系统“时

#人工智能
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

AlayaDB 是 AlayaDB AI 开发的一款尖端向量数据库系统,其原生架构旨在实现大语言模型(LLM)的高效且有效的长上下文推理。具体而言,它将 KV Cache(键值缓存)和 Attention(注意力)计算从 LLM 推理系统中解耦,并将它们封装到一个新颖的向量数据库系统中。对于模型即服务(MaaS)提供商而言,与现有的替代方案(如 KV Cache 分离、基于检索的稀疏注意力)相比,

#人工智能
DroidSpeak:KV Cache Sharing for Cross-LLM Communication and Multi-LLM Servin

摘要: DroidSpeak提出了一种面向同源微调LLM的KV缓存共享技术,通过实证研究发现仅约10%的层(关键层)对跨模型缓存复用敏感。系统采用选择性重计算策略:对关键层进行局部重计算,复用其余非关键层KV缓存,在保证生成质量(F1/Rouge-L损失<5%)的同时显著提升性能。实验表明,相比全量预填充方案,DroidSpeak实现预填充阶段1.7-3.1倍加速,吞吐量提升达4倍。其核心创

#人工智能
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

AlayaDB 是 AlayaDB AI 开发的一款尖端向量数据库系统,其原生架构旨在实现大语言模型(LLM)的高效且有效的长上下文推理。具体而言,它将 KV Cache(键值缓存)和 Attention(注意力)计算从 LLM 推理系统中解耦,并将它们封装到一个新颖的向量数据库系统中。对于模型即服务(MaaS)提供商而言,与现有的替代方案(如 KV Cache 分离、基于检索的稀疏注意力)相比,

#人工智能
Supporting Our AI Overlords:Redesigning Data Systems to be Agent-First

大语言模型(LLM)代理能够代表用户操作和分析数据,这很可能成为未来数据系统的主流工作负载。在处理数据时,代理会采用一种高吞吐量的探索和方案制定过程来完成既定任务,我们将这种过程称为代理推测(agentic speculation)。代理推测的巨大体量和低效性可能会给当今的数据系统带来挑战。我们认为,数据系统需要进行调整,以更原生得支持代理工作负载。利用我们所识别出的代理推测的特征——即。

#人工智能
Fast Distributed Inference Serving for Large Language Models

大规模语言模型(LLMs)驱动了以ChatGPT为代表的新一代交互式AI应用。这类应用的交互特性要求LLM推理具备低延迟特性。现有LLM服务系统对推理任务采用运行至完成的处理模式,存在队头阻塞问题且导致延迟较高。本文提出FastServe——一个面向LLMs的分布式推理服务系统。该系统利用LLM推理的自回归特性,实现了以单个输出令牌为粒度的抢占机制。通过采用具备跳过连接功能的多级反馈队列调度器,F

#语言模型#人工智能#自然语言处理
数据库的介绍

数据库中的事务是指对数据库执行一批操作,在同一个事务当中,这些操作最终要么全部执行成功,要么全部失败,不会存在部分成功的情况。事务是一个原子操作。是一个最小执行单元。可以甶一个或多个SQL语句组成在同一个事务当中,所有的SQL语句都成功执行时,整 个事务成功,有一个SQL语句执行失败,整个事务都执行失败。举个例子:比如A用户给B用户转账100操作,过程如下:从A账户扣100给B账户加100如果在事

文章图片
#数据库
到底了