logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI独立游戏素材生成实操

本文介绍了一个独立游戏开发的全流程解决方案,涵盖了从美术资源生成到游戏引擎集成的各个环节。首先,通过DeepSeek生成游戏玩法方案,即梦AI生成游戏场景图片,腾讯混元3D生成3D模型,Mixamo提供角色动作,Unity作为游戏引擎,Trae用于动画控制。具体步骤包括:使用DeepSeek设计游戏玩法,即梦AI生成圆形地面场景,腾讯混元3D生成主角模型并自动绑骨,Unity中导入和处理地面及主角

文章图片
#人工智能#游戏
ComfyUI的API使用教程

通过API的方式使用ComfyUI,实现二次开发或批量执行任务。

文章图片
#python#开发语言
vLLM推理引擎教程4-离线推理功能

本文介绍了使用vLLM框架优化推理性能的多种方法。主要内容包括:1)基础文本生成、对话式推理、文本分类和嵌入提取四种任务的基本实现;2)自动前缀缓存功能,通过共享KV缓存加速长上下文处理;3)使用YARN方法扩展模型上下文长度;4)多模态任务处理示例(Whisper语音识别);5)底层LLMEngine API的使用。文章通过具体代码示例展示了如何设置参数实现各类推理优化,包括温度调节、top-p

vLLM推理引擎教程5-PagedAttention技术

PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率

文章图片
vLLM推理引擎教程5-PagedAttention技术

PagedAttention是一种借鉴操作系统虚拟内存分页机制的大模型推理内存优化技术。它将KVCache划分为固定大小的物理页,使逻辑连续的注意力上下文可非连续存储,解决了传统连续内存分配导致的显存碎片和浪费问题。该技术通过block table管理逻辑块与物理块的映射关系,在prefill和decode阶段动态分配存储空间。这种虚拟内存式管理方法既保证了请求的连续内存视图,又优化了物理存储效率

文章图片
vLLM推理引擎教程3-分离式Prefill

摘要:本文探讨了LLM推理中的Prefill阶段及其优化方法。Prefill是LLM推理的第一阶段,通过并行处理完整prompt生成KVCache,为后续自回归生成做准备。文章提出分离式Prefill方案,将计算密集的Prefill和内存密集的Decode阶段拆分到不同硬件上执行,以提升系统吞吐量。实践部分通过vLLM框架演示了单机测试,使用共享存储方式实现KVCache传输,包括prefill_

GPT-SoVITS语音合成模型部署及使用

手把手教小白用户部署GPT-SOVITS,开启文本到个性化语音生成的AI技术之旅。

文章图片
模型剪枝初级方法

初级剪枝方法的原理解析

#剪枝#算法
知识蒸馏的说明

知识蒸馏(Knowledge Distillation,简称KD)是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型,在不改变学生模型结构的情况下提高其性能。

文章图片
#人工智能
微信小程序流式请求websocket示例

(1)通过SocketTask = wx.connectSocket创建连接。3、测试发现,websocket性能有问题,有时候几个字的返回要卡半分钟。(4)通过SocketTask.onMessage接收对方发送的消息。(3)通过SocketTask.send发送消息,这个是异步的。(2)通过SocketTask.onOpen打开连接。

文章图片
#微信小程序#websocket#前端
    共 69 条
  • 1
  • 2
  • 3
  • 7
  • 请选择