logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM & Ray 分布式推理模型部署

通过 vllm 和 ray 结合,使用 4 台 A10 显卡 部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够,模型推理效率低等问题。

文章图片
#分布式
DeepSeek-R1-0528 推理模型文件拆解分析

以非人工智能科班,跨界研发人员的视角拆解分析 deepseek r1 的推理模型文件的层次结构,希望能从最小的计算机实体存在的方式认识推理模型为何物?通过直观的认识再去了解大模型相关

文章图片
#机器学习
SGlang 推理模型优化(PD架构分离)

本文介绍了关于 PD 架构分离和 KV 多级缓存策略。并且提供了 SGLang 的 PD 分离部署示例。用来说明这样推理模型部署架构

文章图片
vLLM & Ray 分布式推理模型部署

通过 vllm 和 ray 结合,使用 4 台 A10 显卡 部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够,模型推理效率低等问题。

文章图片
#分布式
DeepSpeed-Train 分布式模型训练(小白入门)

DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术,使得用户能够训练参数量高达数万亿的模型,并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。

文章图片
#分布式#云原生#机器学习 +1
SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例,阐述 SGLang 的不同场景的用法。单机,分布式和 MoE 架构的模型部署等

文章图片
DeepSpeed-Train 分布式模型训练(小白入门)

DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术,使得用户能够训练参数量高达数万亿的模型,并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。

文章图片
#分布式#云原生#机器学习 +1
LangChain RAG 系统实战(Qwen3 Embedding&Reranker)

LangChain 框架,并结合了业界领先的 Qwen3 Embedding 和 Reranker 模型,构建了一个功能完善、性能RAG优异的知识库问答系统

文章图片
#RAG
Triton + TensorRT 推理模型部署

Triton Inference Server与TensorRT_LLM 结合实战,提高推理模型服务的吞吐量和效率

文章图片
Kubernetes RDMA 概述与实战(大模型场景)

本篇主要介绍了 Kubernetes 使用 rdma 高速网络的介绍和实战。将高性能技术扩展到容器领域

文章图片
#kubernetes#容器#云原生
    共 24 条
  • 1
  • 2
  • 3
  • 请选择