xqch1983 个人主页

@xqch1983

xqch1983

2022-11-29 19:29:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GPU 峰值算力及性能优化参考资料汇总

另外，这里用的是F32浮点峰值做例子，如果你的任务不需要浮点运算或是精度不是F32，这个值就意义不大，需要转换成你需要的那个操作。其实不看Tensor core的话，满血版一般有：F64:F32:F16=1:2:4，正好与占用的GPR成反比，这个其实是与GPR的带宽有很大的关联的，一般满血版的卡的功能单元配比就会尽量按极限的GPR带宽来设计。一般说来，实际应用中，较大尺寸的矩阵乘法（GEMM）是难

{AI}System

本开源项目主要是跟大家一起探讨和学习人工智能、深度学习的系统设计，而整个系统是围绕着在 NVIDIA、ASCEND 等芯片厂商构建算力层面，所用到的、积累、梳理得到 AI 系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究，共同促进学习讨论。正在上传…重新上传取消。

#人工智能

至目前2025年，深度学习框架、训练框架、推理框架

来自Qwen3 Plus截至 2025 年，通用深度学习框架（General-Purpose Deep Learning Frameworks）是指能够支持多种任务.如需具体部署示例（如：用 vLLM 部署 Qwen2-7B，或用 TGI 启动 LLaMA-3），欢迎继续提问截至 2025 年，大模型（如 LLM、多模态模型）的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的

#深度学习 #人工智能

深入解析U-Net

U-Net 是一种“U形”编码-解码网络，靠保留细节。最初用于医学图像分割，现在广泛用于生成模型（如 Stable Diffusion 的核心去噪模块）。在 SD 中，U-Net 接收带噪 latent 和文本提示，预测噪声，反复迭代得到干净 latent。它不是大模型本身，但却是大模型（如 SD）能高效高质量生成的关键组件。参考深入解析U-Net：图像分割的经典架构与应用 - 知乎。

#人工智能

vllm-qwen3.py介绍

│├── lm_head (Linear) → 最后映射到词表│││││推理时实际调用路径（vLLM）如果你有具体的qwen3.py代码（比如来自 vLLM GitHub 的某版本），我可以进一步对照源码做逐行分析。希望这个梳理对你理解 Qwen3 在 vLLM 中的执行逻辑有所帮助！

#人工智能

真实的大模型中，embedding映射的高维矩阵维度和 attention矩阵运算的规模尺寸？

本文详细分析了主流大语言模型(LLaMA-3、GPT-4等)中关键矩阵的规模及其计算复杂度。重点包括：1)Embedding矩阵可达[128K,8K]规模，占据约1.5%模型参数；2)注意力分数矩阵呈二次方增长，如8K序列长度会产生67M元素/头的庞大矩阵，32头叠加显存占用达4.3GB(fp16)；3)KV缓存推理时每层约67MB，32层共2.15GB。文章指出，正是这些高维矩阵催生了Flash

#人工智能

3 层 Decoder-only Transformer（以 Qwen3 为原型 )怎么计算的

阶段操作数据 shape 变化EmbeddingPrefill3 层 transformer[1,256,4096] → [1,256,4096]（每层不变）存储 K/V每层: [1,32,256,128]Decode t=0输入 last hidden → 3 层 → logits重复上述 decode 步骤输入始终 [1,1,4096]，cache 长度 +1阶段操作数据 shape 变化Em

至目前2025年，深度学习框架、训练框架、推理框架

#深度学习 #人工智能

利用英特尔® VTune™ Profiler 分析、调整和提升应用性能的 8 种方法

8 Ways to Maximize Application Performance With VTune™ Profiler (intel.com)A present-day developer has a wide range of hardware and software tools options available when building and maintaining an ap

#架构

对比 DeepSeek（MLA）、Qwen 和 Llama 系列大模型在 Attention 架构/算法层面的核心设计及理解它们的本质区别。

主要大模型Attention架构对比显示：DeepSeek-V2/V3采用自研MLA技术，通过低维隐空间压缩KVCache，显存效率提升5-10倍，适合长文本；Qwen全系列使用GQA分组查询注意力，平衡速度与效果；Llama系列小模型用MHA，大模型(70B+)转向GQA。MLA为DeepSeek独有创新，Qwen和Llama均未采用，三者在显存效率、实现复杂度等方面各具优势。（149字）

#算法

共 17 条

请选择