logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展,高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型(LLM)推理框架,凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略,在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上,专为华为昇腾 NPU 硬件深度优化的分支版本,支持量化推理、图模式加速、MoE 专家并行、MTP

#昇腾
vLLM-Ascend 部署与推理服务化实战

vLLM-Ascend 部署与推理服务化实战

#云计算#昇腾
用 DevUI MateChat 搭一个企业知识库 Copilot

用 DevUI MateChat 搭一个企业知识库 Copilot

文章图片
#copilot
基于 MateChat 构建 AI 编程智能助手的落地实践

本文围绕 华为云 DevUI MateChat,在在线教育中如何用 DevUI 组件 + MateChat 搭建智能问答界面。

文章图片
#人工智能
vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展,高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型(LLM)推理框架,凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略,在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上,专为华为昇腾 NPU 硬件深度优化的分支版本,支持量化推理、图模式加速、MoE 专家并行、MTP

vLLM-Ascend 部署与推理服务化实战

vLLM-Ascend 部署与推理服务化实战

#云计算
基于openEuler集群的OpenStack Glance镜像服务部署与实战操作全流程指南

基于openEuler集群的OpenStack Glance镜像服务部署与实战操作全流程指南

基于服务器搭建openEuler操作系统部署数据库性能测试

基于服务器搭建openEuler操作系统部署数据库性能测试

#服务器#数据库#运维
基于服务器部署 openEuler 操作系统深度测评:性能与运维双维度解析

基于服务器部署 openEuler 操作系统深度测评:性能与运维双维度解析

#运维#服务器
用 DevUI MateChat 搭一个企业知识库 Copilot

用 DevUI MateChat 搭一个企业知识库 Copilot

文章图片
#copilot
    共 11 条
  • 1
  • 2
  • 请选择