logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM推理引擎教程7-CUDA Graph

vLLM在decode阶段采用CUDAGraph技术提升性能。CUDAGraph通过录制和重放GPU操作减少CPU调度开销,适用于输入结构固定的推理任务。实践表明,使用10000层Linear模型的测试中,原始执行时间为236ms,经CUDAGraph优化后降至47ms,加速效果显著。

ReAct模式解读

ReAct模型是一种结合推理(Reason)与行动(Act)的AI交互范式,通过"思考-行动-观察"的循环流程解决问题。与传统直接输出答案的方式相比,ReAct具有三大优势:通过工具调用确保答案准确性(如天气API)、提供可解释的思考过程、支持多步复杂问题求解。典型流程包括:1)推理确定需求;2)调用工具获取数据;3)观察结果并进一步推理;4)输出最终答案。该模型需要大语言模型

#java#AI
vLLM推理引擎教程2-Async LLM Streaming

本文介绍了使用vLLM的AsyncLLM(V1异步推理引擎)进行流式文本生成的实现方法。核心步骤包括:配置引擎参数、创建AsyncLLM实例、设置流式采样参数、调用engine.generate()进行异步迭代输出,以及最后清理资源。

#人工智能
ComfyUI中基于Fluxgym训练Flux的Lora模型

Fluxgym训练非常方便,只需要更改一个配置文件内容即可。训练时也不需要提前进行图片裁剪、打标等前置工作。本文章是介绍在16G以下显存下训练Flux模型的方法。

文章图片
#AIGC
AI独立游戏素材生成实操

本文介绍了一个独立游戏开发的全流程解决方案,涵盖了从美术资源生成到游戏引擎集成的各个环节。首先,通过DeepSeek生成游戏玩法方案,即梦AI生成游戏场景图片,腾讯混元3D生成3D模型,Mixamo提供角色动作,Unity作为游戏引擎,Trae用于动画控制。具体步骤包括:使用DeepSeek设计游戏玩法,即梦AI生成圆形地面场景,腾讯混元3D生成主角模型并自动绑骨,Unity中导入和处理地面及主角

文章图片
#人工智能#游戏
ComfyUI的API使用教程

通过API的方式使用ComfyUI,实现二次开发或批量执行任务。

文章图片
#python#开发语言
vLLM推理引擎教程4-离线推理功能

本文介绍了使用vLLM框架优化推理性能的多种方法。主要内容包括:1)基础文本生成、对话式推理、文本分类和嵌入提取四种任务的基本实现;2)自动前缀缓存功能,通过共享KV缓存加速长上下文处理;3)使用YARN方法扩展模型上下文长度;4)多模态任务处理示例(Whisper语音识别);5)底层LLMEngine API的使用。文章通过具体代码示例展示了如何设置参数实现各类推理优化,包括温度调节、top-p

vLLM推理引擎教程5-PagedAttention技术

PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率

文章图片
vLLM推理引擎教程5-PagedAttention技术

PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率

文章图片
GPT-SoVITS语音合成模型部署及使用

手把手教小白用户部署GPT-SOVITS,开启文本到个性化语音生成的AI技术之旅。

文章图片
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择