
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
INT4 不是只把权重压到 4bit 就会快。INT4 必须让计算路径也进入整数点积。INT4 必须配合 int8 activation + DP4A,不能走 float 解包。
RoboTron-Drive是中山大学与美团联合研发的一体化自动驾驶多模态模型,通过创新的课程式训练策略(从简单到复杂任务渐进学习)和视角感知提示词技术,整合了6个自动驾驶数据集(CODA-LM、MAPLM等)并进行数据增强。该模型采用SigLIP视觉编码器和Llama-3.1语言模型架构,在13项任务中均达到SOTA性能,并在BDD-X等未见数据集上展现出卓越的零样本泛化能力。其创新点包括:多视
摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境
摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境
摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境
摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境
适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to
适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to
适合把你当前的 QKV fusion、MLP gate/up fusion、attention kernel 接入 vLLM。cd ~csrc/op_host/op_kernel/在 C++/AscendC 侧实现你的算子 kernel 和 host launch。在 Python binding 中注册成可调用 op,例如。在 vllm-ascend 的模型执行路径中,把原来的 torch/to
本文介绍了一个基于C++和Ascend NPU的7B模型推理引擎项目,通过直接编写底层推理核心而非依赖PyTorch框架,在单batch解码场景下实现了35.7 tokens/s的速度,比华为官方torch_npu baseline快3.2%。作者详细展示了项目构建、模型下载、测试对比等完整流程,证明手写C++ runtime在Ascend设备上的性能优势。该项目采用Direct .so推理路径,







