logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用 vLLM 部署 bge-m3 / Qwen3-32B 模型(魔搭模型部署)/ mineru-docker启动

是一个高效的大型语言模型推理和服务系统,具有低延迟、高吞吐量的特点。支持 HuggingFace 格式的模型,并且可以通过简单的命令行启动服务。

#人工智能#语言模型
k8s 负载均衡算法

在 Kubernetes (k8s) 中,服务的负载均衡默认使用的是轮询算法(Round Robin)。这种算法会将请求按顺序依次分配给每一个后端 Pod。当一个请求被分配后,下一个请求会被分配给下一个 Pod,循环往复。

#kubernetes#负载均衡#容器
到底了