logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen2.5-7B-Instruct vLLM 部署调用

vLLM框架是一个高效的大语言模型vLLMKVvLLMvLLMOpenAIAPIGPUvLLM。

RoPE 的数学表达式

RoPE(旋转位置编码)是一种创新的位置编码方法,通过旋转矩阵将位置信息融入Transformer的注意力机制中。其核心思想是将embedding向量按两维分组,对每组应用旋转变换,旋转角度与位置相关(θ=pos/10000^(2i/d))。这种方法能保持相对位置关系,使注意力分数仅依赖位置差。RoPE可用复数形式简洁表示(z'=ze^(iθ)),工程实现上通过交替应用正弦余弦变换完成。其优势在于

#架构
multi_head_attention_matrix_example 多头注意力 算例子

矩阵乘法的运算规则统一(BLAS 搞定),但层的排列组合、注意力变体、MoE 路由每家不同。遇到自定义层(如 DeepSeek-V3 的 MLA),推理框架必须手写对应 CUDA kernel,无法通用。

#搜索引擎#算法
BPE Tokenizer 完整入门:从汉字编码到 GPT-2 风格 Byte-Level BPE

本文介绍了BPE(Byte Pair Encoding)分词器的核心原理及其在GPT-2风格tokenizer中的应用。主要内容包括: 文本处理流程:从原始文本到token id的转换过程,重点说明BPE通过统计方法合并高频相邻片段来压缩文本长度。 汉字处理方式:详细解释了汉字如何通过Unicode和UTF-8编码转换为字节序列,以及GPT-2风格BPE如何对这些字节进行处理。 BPE算法详解:通

一个从零实现的 CUDA 大模型推理引擎

最近我在做一个比较硬核的小项目:用 C++ / CUDA 从零实现一个大模型推理引擎。这个项目当前主要面向 DeepSeek-R1-Distill-Qwen-7B 的单 batch 推理。它不是在 PyTorch、Transformers、vLLM 或 llama.cpp 上套一层接口,而是尽量把推理核心路径自己写出来,直接用 CUDA 实现模型 forward 和 decode。

#算法
Jetson Orin AGX 上的 DeepSeek-R1-Distill-Qwen-7B INT4 量化推理实践:从 9 tok/s 到 19.6 tok/s

INT4 不是只把权重压到 4bit 就会快。INT4 必须让计算路径也进入整数点积。INT4 必须配合 int8 activation + DP4A,不能走 float 解包。

#算法
Jetson Orin AGX INT4 推理优化实践:super 分支从 9 tok/s 到 24 tok/s

本文总结了在 Jetson Orin AGX 上对 DeepSeek-R1-Distill-Qwen-7B 模型的 INT4 推理优化实践。通过分析发现,单纯将权重压缩为 INT4 并不能自动提升速度,关键在于实现 INT4 权重与 INT8 activation 的整数点积计算,利用 NVIDIA 的 DP4A 指令集优化。最终方案将解码速度从最初的 9 tok/s 提升至 24 tok/s,单

#算法#人工智能
算子级开源、不依赖 torch_npu:从零实现 Ascend 大模型推理引擎

本文介绍了一个面向Ascend NPU的自研大模型推理引擎项目LLM-inference-engine。该项目通过C++动态库libllm_ascend.so实现底层推理流程,支持DeepSeek-R1-Distill-Qwen-7B等大语言模型。项目特点包括:1) 不依赖torch_npu,直接使用AscendCL/CANN进行算子级优化;2) 将模型加载、内存管理、推理流程等核心功能实现在C+

#开源
手写算子优化 在上华为昇腾910 Ascend A3 上比 官方引擎vLLM-Ascend 快约 25%

摘要:Ascend-super 推理引擎在 Ascend A3 上实现了显著性能提升。测试显示,该引擎运行 DeepSeek-R1-Distill-Qwen-7B 模型时达到 47.1 tok/s,比 vLLM-Ascend 快 25.1%,比 torch_npu 快 36.0%。该项目采用 C++/AscendCL/ACLNN 直接推理路径,而非传统 PyTorch 或 vLLM 框架。测试环境

#算法
自研推理引擎 推理 deepseek R1 7B 比 华为官方 引擎 快25% 的原因

本文总结了在Ascend芯片上实现DeepSeek-R1-Distill-Qwen-7B模型47-50 tok/s推理速度的关键优化措施。主要优化包括:采用自研direct runtime绕过高层框架开销、启用KV缓存、权重预加载与缓存、QKV/MLP融合、优化CPU线程等。这些优化特别适合7B dense模型单batch解码场景。相比之下,A800运行DeepSeek-V4-Flash较慢的原因

#算法#人工智能
    共 355 条
  • 1
  • 2
  • 3
  • 36
  • 请选择