nihaoakekeke 个人主页

@nihaoakekeke

nihaoakekeke

2023-08-26 17:31:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Fast Distributed Inference Serving for Large Language Models

大规模语言模型（LLMs）驱动了以ChatGPT为代表的新一代交互式AI应用。这类应用的交互特性要求LLM推理具备低延迟特性。现有LLM服务系统对推理任务采用运行至完成的处理模式，存在队头阻塞问题且导致延迟较高。本文提出FastServe——一个面向LLMs的分布式推理服务系统。该系统利用LLM推理的自回归特性，实现了以单个输出令牌为粒度的抢占机制。通过采用具备跳过连接功能的多级反馈队列调度器，F

#语言模型 #人工智能 #自然语言处理

GraphRAG论文分享（阶段一）

不要把大模型当成不知疲倦的阅读者，要把大模型当成一个聪明的程序员。让它帮你造工具，而不是让它帮你干苦力。FastRAG 目前是一个**“偏科”但“特长突出”的优等生。它在特定领域（运维数据）把性价比做到了极致。未来的发展方向是提高它的鲁棒性**（防格式变更）和智商（增加推理能力），使其不仅能“解析数据”，还能真正“理解数据”。如果用一句话概括 DyG-RAG 的独特之处：它赋予了 RAG 系统“时

#人工智能

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

AlayaDB 是 AlayaDB AI 开发的一款尖端向量数据库系统，其原生架构旨在实现大语言模型（LLM）的高效且有效的长上下文推理。具体而言，它将 KV Cache（键值缓存）和 Attention（注意力）计算从 LLM 推理系统中解耦，并将它们封装到一个新颖的向量数据库系统中。对于模型即服务（MaaS）提供商而言，与现有的替代方案（如 KV Cache 分离、基于检索的稀疏注意力）相比，

#人工智能

DroidSpeak：KV Cache Sharing for Cross-LLM Communication and Multi-LLM Servin

摘要： DroidSpeak提出了一种面向同源微调LLM的KV缓存共享技术，通过实证研究发现仅约10%的层（关键层）对跨模型缓存复用敏感。系统采用选择性重计算策略：对关键层进行局部重计算，复用其余非关键层KV缓存，在保证生成质量（F1/Rouge-L损失<5%）的同时显著提升性能。实验表明，相比全量预填充方案，DroidSpeak实现预填充阶段1.7-3.1倍加速，吞吐量提升达4倍。其核心创

#人工智能

AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

#人工智能

Supporting Our AI Overlords:Redesigning Data Systems to be Agent-First

大语言模型（LLM）代理能够代表用户操作和分析数据，这很可能成为未来数据系统的主流工作负载。在处理数据时，代理会采用一种高吞吐量的探索和方案制定过程来完成既定任务，我们将这种过程称为代理推测（agentic speculation）。代理推测的巨大体量和低效性可能会给当今的数据系统带来挑战。我们认为，数据系统需要进行调整，以更原生得支持代理工作负载。利用我们所识别出的代理推测的特征——即。

#人工智能

Fast Distributed Inference Serving for Large Language Models

#语言模型 #人工智能 #自然语言处理

数据库的介绍

数据库中的事务是指对数据库执行一批操作，在同一个事务当中，这些操作最终要么全部执行成功，要么全部失败，不会存在部分成功的情况。事务是一个原子操作。是一个最小执行单元。可以甶一个或多个SQL语句组成在同一个事务当中，所有的SQL语句都成功执行时，整个事务成功，有一个SQL语句执行失败，整个事务都执行失败。举个例子：比如A用户给B用户转账100操作，过程如下：从A账户扣100给B账户加100如果在事

#数据库

到底了