logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SGLang框架:原理、优化与比较分析

SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架,通过协同优化前后端架构提升性能。其核心特性包括:高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率;支持多模态输入和结构化生成的X-Grammar功能;以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中,SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题,使

#sglang
SGLang框架:原理、优化与比较分析

SGLang是一个针对大型语言模型和视觉语言模型的高效推理框架,通过协同优化前后端架构提升性能。其核心特性包括:高效的RadixAttention前缀缓存、FP8量化推理、多节点张量并行等技术优化计算效率;支持多模态输入和结构化生成的X-Grammar功能;以及通过Rust重构的智能负载均衡器降低服务开销。在DeepSeek模型优化中,SGLang解决了MLA架构冗余计算、高并发内存瓶颈等问题,使

#sglang
华为昇腾镜像仓库整理

本文档提供了华为昇腾AI服务器上Qwen、Deepseek和Llama系列模型的Docker镜像索引,包括vllm-ascend和mindie两种镜像类型。针对不同服务器型号(800I-A2/A3)分别给出了具体的镜像拉取命令,确保开发者能够快速获取正确的镜像版本,提升部署效率和环境一致性。主要涵盖Qwen3-235B/30B、DeepSeek-R1/V2/V3以及LLaMA3-8B等主流大模型。

#开源
华为昇腾镜像仓库整理

本文档提供了华为昇腾AI服务器上Qwen、Deepseek和Llama系列模型的Docker镜像索引,包括vllm-ascend和mindie两种镜像类型。针对不同服务器型号(800I-A2/A3)分别给出了具体的镜像拉取命令,确保开发者能够快速获取正确的镜像版本,提升部署效率和环境一致性。主要涵盖Qwen3-235B/30B、DeepSeek-R1/V2/V3以及LLaMA3-8B等主流大模型。

#开源
华为昇腾镜像仓库整理

本文档提供了华为昇腾AI服务器上Qwen、Deepseek和Llama系列模型的Docker镜像索引,包括vllm-ascend和mindie两种镜像类型。针对不同服务器型号(800I-A2/A3)分别给出了具体的镜像拉取命令,确保开发者能够快速获取正确的镜像版本,提升部署效率和环境一致性。主要涵盖Qwen3-235B/30B、DeepSeek-R1/V2/V3以及LLaMA3-8B等主流大模型。

#开源
【vLLM-模型特性适配】Minimax模型特性分析

本文分析了Minimax公司发布的大模型架构的创新技术及其应用。重点介绍了Lightning Attention结构,通过结合Linear Attention与分块计算实现线性复杂度,支持超长上下文处理(训练100万tokens/推理400万tokens)。文章还解析了CISPO算法如何优化PPO在长序列生成中的梯度裁剪问题,以及主流线性注意力模型(如Qwen3_next、Kimi Linear等

PP-OCRv4模型转OM全流程操作指南

为确保流程兼容性,需严格匹配以下依赖版本,避免因版本不兼容导致的功能异常。可以使用mindie镜像或者cann包镜像,详细见昇腾社区镜像仓库。

PP-OCRv4模型转OM全流程操作指南

为确保流程兼容性,需严格匹配以下依赖版本,避免因版本不兼容导致的功能异常。可以使用mindie镜像或者cann包镜像,详细见昇腾社区镜像仓库。

PP-OCRv4模型转OM全流程操作指南

PP-OCRv4模型转OM全流程操作指南 作者:昇腾实战派 1. 环境构建 1.1 核心依赖版本说明 可以使用mindie镜像或者cann包镜像,详细见昇腾社区镜像仓库 为确保流程兼容性,需严格匹配以下依赖版本,避免因版本不兼容导致的功能异常。 依赖组件版本要求说明PaddlePaddle3.0.0昇腾NPU适配核心框架PaddleOCR2.10.0提供OCR模型推理基础能力Paddle2ONNX

#昇腾
到底了