logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Nano-vLLM-Ascend(持续更新中)

Nano-vLLM-Ascend是基于开源GPU推理项目nano-vllm开发的Ascend NPU版本,专为初学者设计,精简代码(核心仅2428行)但完整展示推理流程。项目支持多种模型架构(如Qwen、Llama系列),提供张量并行、算子融合等优化技术,并实现PageAttention等关键技术。其特色包括: 轻量级实现,便于学习推理流程 支持CPU/NPU环境运行 包含20大类LLM推理优化技

文章图片
#python#语言模型
到底了