logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPU 峰值算力及性能优化参考资料汇总

另外,这里用的是F32浮点峰值做例子,如果你的任务不需要浮点运算或是精度不是F32,这个值就意义不大,需要转换成你需要的那个操作。其实不看Tensor core的话,满血版一般有:F64:F32:F16=1:2:4,正好与占用的GPR成反比,这个其实是与GPR的带宽有很大的关联的,一般满血版的卡的功能单元配比就会尽量按极限的GPR带宽来设计。一般说来,实际应用中,较大尺寸的矩阵乘法(GEMM)是难

{AI}System

本开源项目主要是跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着在 NVIDIA、ASCEND 等芯片厂商构建算力层面,所用到的、积累、梳理得到 AI 系统全栈的内容。希望跟所有关注 AI 开源项目的好朋友一起探讨研究,共同促进学习讨论。正在上传…重新上传取消。

文章图片
#人工智能
至目前2025年,深度学习框架、训练框架、推理框架

来自Qwen3 Plus截至 2025 年,通用深度学习框架(General-Purpose Deep Learning Frameworks)是指能够支持多种任务.如需具体部署示例(如:用 vLLM 部署 Qwen2-7B,或用 TGI 启动 LLaMA-3),欢迎继续提问截至 2025 年,大模型(如 LLM、多模态模型)的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的

#深度学习#人工智能
深入解析U-Net

U-Net 是一种“U形”编码-解码网络,靠保留细节。最初用于医学图像分割,现在广泛用于生成模型(如 Stable Diffusion 的核心去噪模块)。在 SD 中,U-Net 接收带噪 latent 和文本提示,预测噪声,反复迭代得到干净 latent。它不是大模型本身,但却是大模型(如 SD)能高效高质量生成的关键组件。参考深入解析U-Net:图像分割的经典架构与应用 - 知乎。

#人工智能
vllm-qwen3.py介绍

│├── lm_head (Linear) → 最后映射到词表│││││推理时实际调用路径(vLLM)如果你有具体的qwen3.py代码(比如来自 vLLM GitHub 的某版本),我可以进一步对照源码做逐行分析。希望这个梳理对你理解 Qwen3 在 vLLM 中的执行逻辑有所帮助!

#人工智能
真实的大模型中,embedding映射的高维矩阵维度和 attention矩阵运算的规模尺寸?

本文详细分析了主流大语言模型(LLaMA-3、GPT-4等)中关键矩阵的规模及其计算复杂度。重点包括:1)Embedding矩阵可达[128K,8K]规模,占据约1.5%模型参数;2)注意力分数矩阵呈二次方增长,如8K序列长度会产生67M元素/头的庞大矩阵,32头叠加显存占用达4.3GB(fp16);3)KV缓存推理时每层约67MB,32层共2.15GB。文章指出,正是这些高维矩阵催生了Flash

#人工智能
3 层 Decoder-only Transformer(以 Qwen3 为原型 )怎么计算的

阶段操作数据 shape 变化EmbeddingPrefill3 层 transformer[1,256,4096] → [1,256,4096](每层不变)存储 K/V每层: [1,32,256,128]Decode t=0输入 last hidden → 3 层 → logits重复上述 decode 步骤输入始终 [1,1,4096],cache 长度 +1阶段操作数据 shape 变化Em

至目前2025年,深度学习框架、训练框架、推理框架

来自Qwen3 Plus截至 2025 年,通用深度学习框架(General-Purpose Deep Learning Frameworks)是指能够支持多种任务.如需具体部署示例(如:用 vLLM 部署 Qwen2-7B,或用 TGI 启动 LLaMA-3),欢迎继续提问截至 2025 年,大模型(如 LLM、多模态模型)的训练对分布式能力、显存优化、通信效率、易用性提出了极高要求。当前主流的

#深度学习#人工智能
利用英特尔® VTune™ Profiler 分析、调整和提升应用性能的 8 种方法

8 Ways to Maximize Application Performance With VTune™ Profiler (intel.com)A present-day developer has a wide range of hardware and software tools options available when building and maintaining an ap

#架构
对比 DeepSeek(MLA)、Qwen 和 Llama 系列大模型在 Attention 架构/算法层面的核心设计及理解它们的本质区别。

主要大模型Attention架构对比显示:DeepSeek-V2/V3采用自研MLA技术,通过低维隐空间压缩KVCache,显存效率提升5-10倍,适合长文本;Qwen全系列使用GQA分组查询注意力,平衡速度与效果;Llama系列小模型用MHA,大模型(70B+)转向GQA。MLA为DeepSeek独有创新,Qwen和Llama均未采用,三者在显存效率、实现复杂度等方面各具优势。(149字)

#算法
    共 17 条
  • 1
  • 2
  • 请选择