飞码创造者个人主页

@wbajsjhhhhh

飞码创造者

2024-06-04 22:17:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Ascend 部署与推理服务化实战

vLLM-Ascend 部署与推理服务化实战

#云计算 #昇腾

我试了飞算JavaAI的“智能问答”，才发现以前的AI编程工具都在装样子

我试了飞算JavaAI的“智能问答”，才发现以前的AI编程工具都在装样子

文章图片

vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展，高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型（LLM）推理框架，凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略，在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上，专为华为昇腾 NPU 硬件深度优化的分支版本，支持量化推理、图模式加速、MoE 专家并行、MTP

vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展，高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型（LLM）推理框架，凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略，在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上，专为华为昇腾 NPU 硬件深度优化的分支版本，支持量化推理、图模式加速、MoE 专家并行、MTP

vLLM-Ascend 部署与推理服务化实战

vLLM-Ascend 部署与推理服务化实战

#云计算 #昇腾

vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展，高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型（LLM）推理框架，凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略，在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上，专为华为昇腾 NPU 硬件深度优化的分支版本，支持量化推理、图模式加速、MoE 专家并行、MTP

vLLM-Ascend 部署与推理服务化实战

vLLM-Ascend 部署与推理服务化实战

#云计算 #昇腾

用 DevUI MateChat 搭一个企业知识库 Copilot

用 DevUI MateChat 搭一个企业知识库 Copilot

文章图片

基于 MateChat 构建 AI 编程智能助手的落地实践

本文围绕华为云 DevUI MateChat，在在线教育中如何用 DevUI 组件 + MateChat 搭建智能问答界面。

文章图片

vLLM-Ascend 部署推理服务化的实践记录

随着大模型技术的快速发展，高效推理已成为实际落地的关键挑战。vLLM 作为当前主流的大语言模型（LLM）推理框架，凭借它 PagedAttention 内存管理机制和 Continuous Batching 调度策略，在吞吐量和显存利用率方面表现突出。而 vLLM-Ascend 是在 vLLM基础上，专为华为昇腾 NPU 硬件深度优化的分支版本，支持量化推理、图模式加速、MoE 专家并行、MTP

共 15 条

1
2

请选择