
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
不同方式的cuda版本号含义
Alpaca、AdaLoRA、QLoRA

PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率

Transformer模型的核心目标是通过复杂的网络结构预测下一个文字。模型首先将输入内容(如文本、图像或声音)分割成称为tokens的片段,每个token通过嵌入矩阵转换为高维向量,以捕捉其含义和上下文位置。这些向量随后进入Attention模块,通过QKV(Query, Key, Value)计算流程,模型能够确定哪些tokens在上下文中对更新其他tokens的意义最为关键。Attentio

摘要:本文探讨了LLM推理中的Prefill阶段及其优化方法。Prefill是LLM推理的第一阶段,通过并行处理完整prompt生成KVCache,为后续自回归生成做准备。文章提出分离式Prefill方案,将计算密集的Prefill和内存密集的Decode阶段拆分到不同硬件上执行,以提升系统吞吐量。实践部分通过vLLM框架演示了单机测试,使用共享存储方式实现KVCache传输,包括prefill_
本文介绍了Nvidia Nsight Systems性能分析工具,用于优化推理引擎性能。该工具通过收集CPU/GPU执行细节,生成系统时间线视图,帮助开发者分析线程活动、GPU内核执行等事件的时序关系。文章详细说明了Linux服务器安装方法(通过rpm包)和验证步骤,并提供了Python版本的GPU性能测试代码示例,包含张量创建、GPU数据传输和矩阵乘法操作。

vLLM在decode阶段采用CUDAGraph技术提升性能。CUDAGraph通过录制和重放GPU操作减少CPU调度开销,适用于输入结构固定的推理任务。实践表明,使用10000层Linear模型的测试中,原始执行时间为236ms,经CUDAGraph优化后降至47ms,加速效果显著。
ReAct模型是一种结合推理(Reason)与行动(Act)的AI交互范式,通过"思考-行动-观察"的循环流程解决问题。与传统直接输出答案的方式相比,ReAct具有三大优势:通过工具调用确保答案准确性(如天气API)、提供可解释的思考过程、支持多步复杂问题求解。典型流程包括:1)推理确定需求;2)调用工具获取数据;3)观察结果并进一步推理;4)输出最终答案。该模型需要大语言模型
本文介绍了使用vLLM的AsyncLLM(V1异步推理引擎)进行流式文本生成的实现方法。核心步骤包括:配置引擎参数、创建AsyncLLM实例、设置流式采样参数、调用engine.generate()进行异步迭代输出,以及最后清理资源。
Fluxgym训练非常方便,只需要更改一个配置文件内容即可。训练时也不需要提前进行图片裁剪、打标等前置工作。本文章是介绍在16G以下显存下训练Flux模型的方法。








