logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Triton学习笔记

b站链接:合集·Triton 从入门到精通在大模型部署中,“batching” 是指将多个输入样本一起发送到模型进行推理的过程,而不是逐个样本进行推理。这个过程通常发生在推理阶段,也就是在模型实例接收到推理请求后,对输入数据进行处理的阶段。作用:例子:4. Practice : WeNetRate Limiter原理当客户端发送了很多request,server接收了request之后,只要我们的

文章图片
#学习
到底了