ZhiqianXia 个人主页

@weixin_43258309

ZhiqianXia

2025-01-19 15:58:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GPU L2 Cache 设计哲学概述

吞吐量最大化：通过大容量、多分区、非阻塞设计，以极高的带宽满足所有SM的并发请求，保障计算单元的吞吐量。流量优化与节能：通过强大的请求合并能力，减少对显存的访问次数和流量，提升有效带宽，降低功耗。全局协调与串行化：作为全局内存系统的枢纽，高效、正确地处理原子操作和多SM之间的数据交互。最终，一个成功的L2 Cache设计是让SM“感觉”不到Global Memory的巨大延迟，仿佛在访问一个吞吐量

#硬件架构

CUDA 常量内存知识点总结

CUDA中的**常量内存（Constant Memory）**是CUDA编程模型中的一种特殊内存类型，用于存储在GPU执行期间不会改变的数据。它具有特定的特性和限制，适合某些特定的优化场景。

LESSONS IN TABLEGEN 报告总结

该文档是Nicolai Hähnle在FOSDEM 2019上关于LLVM TableGen的分享内容，核心介绍了TableGen作为LLVM中的工具与语言，其工具端包含和（共享前端、不同后端），可生成MCInstrDesc、指令选择等目标文件，语言端是记录定义的超集，支持类、多类等特性；还详细阐述了TableGen的类型系统（如bit、dag等）、核心语言特性（类、let语句、多类、foreac

NCCL学习笔记

NCCL（NVIDIA Collective Communication Library）是 GPU 集群高性能集体通信的核心软件层，专注于优化 GPU-to-GPU 交互支持 NVLink、PCIe、InfiniBand 等 interconnect 技术，广泛应用于分布式 AI 与 HPC workloads.NCCL起初的设计目标是构建一款易集成、拓扑感知的集体通信库，最终提升多 GPU 应

C++ 常见代码异味（Code Smells）

该文档由软件工程师 Arne Mertz 撰写，聚焦 C++ 中的常见代码异味，首先依据 Martin Fowler 定义明确代码异味是系统深层问题的表面迹象（易识别、非实际问题、可能不构成问题但常违反原则/缺失模式/影响可维护性），随后通过 SFML 网球示例等开源代码片段，详细分析了长函数、过早泛化、深层嵌套控制流、复杂表达式、缺少 const/constexpr、缺失 RAII、违反“五法则

#c++

现代C++ 核心使用惯例与认知

编写安全、清晰、高效且易于维护的代码。安全：通过 RAII、智能指针、范围循环等机制，消除常见的错误来源。清晰：通过auto、lambda、算法等提升代码的表达力。高效：通过移动语义、零开销抽象、编译时计算等保证顶级性能。易于维护：通过强类型、减少显式资源管理、使用标准组件，让代码更模块化，更不容易出错。要学习现代 C++，建议从C++11的基础特性开始，然后逐步了解C++141720乃至23的新

#c++#开发语言

PillarsOfModernCpp 报告总结

该文档围绕现代C++的核心支柱展开，重点介绍了RAII（资源获取即初始化）这一关键语言特性（用于通过析构函数自动清理内存、文件句柄等资源），同时涵盖C++98到C++11及后续标准的特性演进（如智能指针、右值引用与移动语义）、类型安全实践（如用enum class、自定义结构体区分参数类型）、编译期计算（模板元编程实现斐波那契数列、constexpr函数）、现代语法特性（结构化绑定、范围for循环

#生活

高带宽的L2 Cache的诀窍

高带宽L2 Cache设计的核心在于并行性、低延迟和高效互连，同时需权衡功耗与面积。关键窍门包括多端口、多银行、宽总线、高效一致性协议以及先进工艺的结合。针对具体应用场景（如GPU、CPU或AI加速器），需进一步定制优化。

#硬件架构

DeepSeek 学习笔记 (1)

DeepSeek 在这个春节大放异彩，横扫朋友圈和长辈酒局,一起来学习一下，打算体验一下用DeepSeek 学习DeepSeek, 玩一把 “自举”.

#学习

DeepSeek 教我 LLVM （1)：汇编器中的Fixup 概念是什么?

它通过记录需要修正的位置和类型，支持跨模块符号引用、动态地址计算和指令优化（如分支松弛），最终通过重定位确保生成正确的可执行代码。理解 Fixup 是掌握 LLVM 汇编器和目标文件生成原理的关键。当生成机器代码时，某些指令的操作数（如跳转目标地址、数据符号的偏移量等）可能在汇编阶段无法确定（例如，符号可能位于其他模块或需要链接时才能确定）。，标记这些需要后续修正的位置，并在最终生成目标文件时完成

共 15 条

请选择