huafeng88 个人主页

@goodgood_UP

huafeng88

2023-10-23 13:55:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型生成长度预测器

在Transformer大模型推理过程中，**KV缓存（Key-Value Cache）**的内存占用会随着序列长度呈线性增长。传统系统（如HuggingFace Transformers和FasterTransformer）要么频繁分配内存导致延迟，要么预分配最大长度造成资源浪费。，将吞吐量提升6.49倍。

#bert #分类 #语言模型

pytorch中的torch.compile是如何加速vLLM大模型推理的？

torch.compile 通过将 PyTorch 代码 JIT（just in time）编译为优化的内核，使 PyTorch 代码运行得更快，同时只需极少的代码更改。简单来说，torch.compile 利用 PyTorch 2.0 引入的动态图捕获（TorchDynamo）和图形编译（TorchInductor 等后端）技术，将模型的前向计算图转换为高度优化的低级代码（包括融合的GPU内核

#pytorch #人工智能 #python

推理框架SGLang安装与调试

程序路径：examples/frontend_language/quick_start/local_example_chat.py。（安装torch2.5是为了和sglang对齐，cuda向后兼容）SGLang是一个用于大型语言模型和视觉语言模型的快速服务框架。

#语言模型 #transformer #架构

vscode开发中常用的快捷键大全

简要概述vscode开发中常用快捷键

#vscode #ide #编辑器

pytorch中的torch.compile是如何加速vLLM大模型推理的？

#pytorch #人工智能 #python

到底了