logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Jetson Orin AGX 上的 DeepSeek-R1-Distill-Qwen-7B INT4 量化推理实践:从 9 tok/s 到 19.6 tok/s

INT4 不是只把权重压到 4bit 就会快。INT4 必须让计算路径也进入整数点积。INT4 必须配合 int8 activation + DP4A,不能走 float 解包。

#算法
RoboTron-Drive:自动驾驶领域的全能多模态大模型

RoboTron-Drive是中山大学与美团联合研发的一体化自动驾驶多模态模型,通过创新的课程式训练策略(从简单到复杂任务渐进学习)和视角感知提示词技术,整合了6个自动驾驶数据集(CODA-LM、MAPLM等)并进行数据增强。该模型采用SigLIP视觉编码器和Llama-3.1语言模型架构,在13项任务中均达到SOTA性能,并在BDD-X等未见数据集上展现出卓越的零样本泛化能力。其创新点包括:多视

#自动驾驶#人工智能#机器学习
手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%

摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境

#算法
手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%

摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境

#算法
手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%

摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境

#算法
手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%

摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境

#算法
如何让 vLLM 推理自己 ascend的算子

适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to

如何让 vLLM 推理自己 ascend的算子

适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to

如何让 vLLM 推理自己 ascend的算子

适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to

比华为官方 torch_npu 更快:我用 C++/Ascend 写了一个 7B deepseek推理引擎

本文介绍了一个基于C++和Ascend NPU的7B模型推理引擎项目,通过直接编写底层推理核心而非依赖PyTorch框架,在单batch解码场景下实现了35.7 tokens/s的速度,比华为官方torch_npu baseline快3.2%。作者详细展示了项目构建、模型下载、测试对比等完整流程,证明手写C++ runtime在Ascend设备上的性能优势。该项目采用Direct .so推理路径,

#华为#c++#开发语言
    共 354 条
  • 1
  • 2
  • 3
  • 36
  • 请选择