logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

显存大解放:vLLM Sleep模式实战指南,90% GPU资源瞬间回收!

vLLM的Sleep模式允许你临时释放模型占用的GPU内存(包括模型权重和KV缓存),而无需停止服务器或卸载Docker容器。RLHF训练:在训练和推理间无缝切换成本优化:空闲时段释放GPU资源给其他任务多模型调度:动态切换不同模型而无需重启服务✅释放90%+ GPU显存:将权重卸载到CPU内存,丢弃KV缓存✅快速恢复:秒级唤醒,无需完整重新加载模型✅精细控制:支持分布式部署,可单独唤醒权重或KV

文章图片
基于Triton推理服务器的性能优化实践

NVIDIA的Triton推理服务器通过动态批处理、模型并发和TensorRT加速等多种优化策略,不仅充分发挥GPU的并行计算能力,还能根据业务场景灵活调整配置,从而实现高吞吐、低延迟的推理服务。本文将深入解析Triton中的关键优化技术,并结合详细的测试数据和命令行解析,为读者展示如何利用这些技术提升推理性能。

文章图片
#性能优化
NLP项目工作流程

文章目录1. 谷歌Colab设置2. 编写代码3. flask 微服务4. 打包到容器5. 容器托管参考 基于深度学习的自然语言处理使用这篇文章的数据(情感分类)进行学习。1. 谷歌Colab设置Colab 地址新建笔记本设置选择 GPU/TPU 加速计算测试 GPU 是否分配import tensorflow as tftf.test.gpu_device_name()输出:/device:GP

TensorFlow 2.0 - TFRecord存储数据集、@tf.function图执行模式、tf.TensorArray、tf.config分配GPU

文章目录1. TFRecord 格式存储2. tf.function 高性能3. tf.TensorArray 支持计算图特性4. tf.config 分配GPU学习于:简单粗暴 TensorFlow 21. TFRecord 格式存储使用该种格式,更高效地进行大规模的模型训练import randomimport osimport tensorflow as tf# 使用前一节 kaggle 上

大模型压缩和推理加速

参考:《大模型导论》

文章图片
马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)

文章目录1. 蒙特卡罗法2. 马尔可夫链3. 马尔可夫链蒙特卡罗法4. Metropolis-Hastings 算法5. 吉布斯抽样蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulation method),是通过从概率模型的随机抽样进行近似数值计算的方法马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)..

由paddle静态模型文件导出模型网络结构、模型精度转换

上文为了证明这个模型确实是对精度敏感的,做了以下实验。

文章图片
#paddle
使用云函数进行分布式并行计算

云函数可以处理图片、音频、视频等多媒体文件,支持多种格式转换和处理,例如对图片进行压缩、裁剪、打水印等操作。同时,云函数也提供了丰富的数据处理和分析功能,例如数据库操作、机器学习推理、文件存储等。原因:指定函数的最长运行时间,可选值范围为1秒- 86400秒(24小时,一天够了吧),使用 异步事件云函数,分别同时进行计算(本地内存等可能不支持这么大),缩短整体运行时间。的代码,无需管理服务器,在开

文章图片
#分布式
将markdown文件转成PDF(支持代码块、公式)

【代码】将markdown文件转成PDF(支持代码块、公式)

文章图片
fastapi 请求文件 / 表单 / 处理错误 / 路径操作配置 / jsonable_encoder

文章目录1. File 参数2. 多文件上传3. 请求表单与文件4. 处理错误5. 自定义响应头6. 自定义异常处理器7. 覆盖默认异常处理器8. 使用 RequestValidationError 的请求体9. 复用 FastAPI 异常处理器learn from https://fastapi.tiangolo.com/zh/tutorial/request-files/1. File 参数f

#fastapi
    共 115 条
  • 1
  • 2
  • 3
  • 12
  • 请选择