
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
吞吐量最大化:通过大容量、多分区、非阻塞设计,以极高的带宽满足所有SM的并发请求,保障计算单元的吞吐量。流量优化与节能:通过强大的请求合并能力,减少对显存的访问次数和流量,提升有效带宽,降低功耗。全局协调与串行化:作为全局内存系统的枢纽,高效、正确地处理原子操作和多SM之间的数据交互。最终,一个成功的L2 Cache设计是让SM“感觉”不到Global Memory的巨大延迟,仿佛在访问一个吞吐量
CUDA中的**常量内存(Constant Memory)**是CUDA编程模型中的一种特殊内存类型,用于存储在GPU执行期间不会改变的数据。它具有特定的特性和限制,适合某些特定的优化场景。
该文档是Nicolai Hähnle在FOSDEM 2019上关于LLVM TableGen的分享内容,核心介绍了TableGen作为LLVM中的工具与语言,其工具端包含和(共享前端、不同后端),可生成MCInstrDesc、指令选择等目标文件,语言端是记录定义的超集,支持类、多类等特性;还详细阐述了TableGen的类型系统(如bit、dag等)、核心语言特性(类、let语句、多类、foreac
NCCL(NVIDIA Collective Communication Library)是 GPU 集群高性能集体通信的核心软件层,专注于优化 GPU-to-GPU 交互支持 NVLink、PCIe、InfiniBand 等 interconnect 技术,广泛应用于分布式 AI 与 HPC workloads.NCCL起初的设计目标是构建一款易集成、拓扑感知的集体通信库,最终提升多 GPU 应
该文档由软件工程师 Arne Mertz 撰写,聚焦 C++ 中的常见代码异味,首先依据 Martin Fowler 定义明确代码异味是系统深层问题的表面迹象(易识别、非实际问题、可能不构成问题但常违反原则/缺失模式/影响可维护性),随后通过 SFML 网球示例等开源代码片段,详细分析了长函数、过早泛化、深层嵌套控制流、复杂表达式、缺少 const/constexpr、缺失 RAII、违反“五法则
编写安全、清晰、高效且易于维护的代码。安全:通过 RAII、智能指针、范围循环等机制,消除常见的错误来源。清晰:通过auto、lambda、算法等提升代码的表达力。高效:通过移动语义、零开销抽象、编译时计算等保证顶级性能。易于维护:通过强类型、减少显式资源管理、使用标准组件,让代码更模块化,更不容易出错。要学习现代 C++,建议从C++11的基础特性开始,然后逐步了解C++141720乃至23的新
该文档围绕现代C++的核心支柱展开,重点介绍了RAII(资源获取即初始化)这一关键语言特性(用于通过析构函数自动清理内存、文件句柄等资源),同时涵盖C++98到C++11及后续标准的特性演进(如智能指针、右值引用与移动语义)、类型安全实践(如用enum class、自定义结构体区分参数类型)、编译期计算(模板元编程实现斐波那契数列、constexpr函数)、现代语法特性(结构化绑定、范围for循环
高带宽L2 Cache设计的核心在于并行性、低延迟和高效互连,同时需权衡功耗与面积。关键窍门包括多端口、多银行、宽总线、高效一致性协议以及先进工艺的结合。针对具体应用场景(如GPU、CPU或AI加速器),需进一步定制优化。
DeepSeek 在这个春节大放异彩,横扫朋友圈和长辈酒局,一起来学习一下,打算体验一下用DeepSeek 学习DeepSeek, 玩一把 “自举”.

它通过记录需要修正的位置和类型,支持跨模块符号引用、动态地址计算和指令优化(如分支松弛),最终通过重定位确保生成正确的可执行代码。理解 Fixup 是掌握 LLVM 汇编器和目标文件生成原理的关键。当生成机器代码时,某些指令的操作数(如跳转目标地址、数据符号的偏移量等)可能在汇编阶段无法确定(例如,符号可能位于其他模块或需要链接时才能确定)。,标记这些需要后续修正的位置,并在最终生成目标文件时完成







