logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

快来看看 vLLM × Ascend 年度回顾:2025 年度总结

2025 年,vLLM Ascend 项目正式创建,并在一年内完成了 25 次快速迭代,与社区共同打磨代码、测试、文档与反馈。项目的使命是为昇腾(Ascend)用户提供易用、高性能、低成本的推理服务,并推动从 0 到 1 到生产落地的持续演进,聚焦分布式推理与强化学习等关键场景。全年发布了 3 个正式版本和 22 个尝鲜版本,重要里程碑包括 v0.7.1rc1、v0.7.3、v0.9.1、v0.1

文章图片
快来看看 vLLM × Ascend 年度回顾:2025 年度总结

2025 年,vLLM Ascend 项目正式创建,并在一年内完成了 25 次快速迭代,与社区共同打磨代码、测试、文档与反馈。项目的使命是为昇腾(Ascend)用户提供易用、高性能、低成本的推理服务,并推动从 0 到 1 到生产落地的持续演进,聚焦分布式推理与强化学习等关键场景。全年发布了 3 个正式版本和 22 个尝鲜版本,重要里程碑包括 v0.7.1rc1、v0.7.3、v0.9.1、v0.1

文章图片
一文了解大语言模型推理性能优化关键技术之 PD 分离及典型的 PD 分离方案

本文首先明确大语言模型推理系统的关键性能指标,继而剖析预填充(Prefilling)与解码(Decoding)这两个阶段的核心特征。基于上述分析,本文指出:持续批处理(Continuous Batching)采用阶段隔离与抢占机制,虽有助于提高系统吞吐量并降低首令牌延迟(Time To First Token,TTFT),但会显著增加词元间延迟(Token-to-Token Delay,TBT),

文章图片
#性能优化
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例

一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例

文章图片
#人工智能
如何让大模型跑得更快、更便宜?值得研读的高效推理综述论文/技术文章与工程实践资源汇总,全面涵盖 LLM、VLM、VLA、长上下文情景的高效推理

大语言模型的浪潮已从 "能生成" 进入 "如何高效生成" 的深水区。推理效率不再只是大模型落地的附属议题,而是贯穿算法、系统乃至硬件全栈的关键战场。从 vLLM 的分页注意力,到自适应推测解码、Prefilling/Decoding 分离架构、大规模专家并行、KV 缓存压缩与跨节点传输,每一项创新都在重塑算力利用的极限。这篇博文汇总了一些最具代表性的大模型高效推理综述论文和博客,为想入行 LLM

文章图片
#人工智能
一文了解大语言模型推理性能优化关键技术之 PD 分离及典型的 PD 分离方案

本文首先明确大语言模型推理系统的关键性能指标,继而剖析预填充(Prefilling)与解码(Decoding)这两个阶段的核心特征。基于上述分析,本文指出:持续批处理(Continuous Batching)采用阶段隔离与抢占机制,虽有助于提高系统吞吐量并降低首令牌延迟(Time To First Token,TTFT),但会显著增加词元间延迟(Token-to-Token Delay,TBT),

文章图片
#性能优化
一文了解国产算子编程语言 TileLang,TileLang 对国产开源生态的影响与启示

TileLang 旨在简化高性能 GPU/CPU 内核(Kernels)的开发,例如 MLA(Multi-Head Latent Attention)、GEMM(GEneral Matrix Multiplication)、Dequant GEMM、FlashAttention 和 LinearAttention 等。通过在 TVM 之上构建底层编译器基础设施,并采用 Pythonic 语法,ti

文章图片
#开源#昇腾
虚拟化向左,超节点向右,一文了解实现 GPU/NPU 利用率提升达 30% 的 “黑科技”

超节点、虚拟化、Aegaeon。虚拟化向左,超节点向右,一文了解实现 GPU/NPU 利用率提升达 30% 的 “黑科技”。

文章图片
#人工智能
Claude Code 太贵?这五个工具都能让 Claude Code 支持更多自定义模型 + API 中转!

Claude Code 太贵?这五个工具都能让 Claude Code 支持更多自定义模型 + API 中转!

文章图片
#DeepSeek
一文了解硅基流动(SiliconCloud):有前景的大模型云服务平台

一文了解硅基流动(SiliconCloud):强大的大模型云服务平台

文章图片
#人工智能#性能优化
    共 197 条
  • 1
  • 2
  • 3
  • 20
  • 请选择