简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Triton学习笔记
b站链接:合集·Triton 从入门到精通在大模型部署中,“batching” 是指将多个输入样本一起发送到模型进行推理的过程,而不是逐个样本进行推理。这个过程通常发生在推理阶段,也就是在模型实例接收到推理请求后,对输入数据进行处理的阶段。作用:例子:4. Practice : WeNetRate Limiter原理当客户端发送了很多request,server接收了request之后,只要我们的
到底了