logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

讲透Transformer(三):Transformer 注意力机制详解与Qwen/DeepSeek近期改进

│ 注意力改进三大方向 ││ ││ 1️⃣ 效率优化 ││ • Flash Attention (减少内存访问) ││ • GQA/MQA (减少 KV-Cache) ││ • MLA (压缩存储) ││ ││ 2️⃣ 长上下文支持 ││ • RoPE (更好的位置外推) ││ • 滑动窗口/稀疏注意力 ││ • 动态缩放 (YaRN 等) ││ ││ 3️⃣ 效果提升 ││ • 更多注意力头 │

#transformer#深度学习#人工智能
讲透Transformer(三):Transformer 注意力机制详解与Qwen/DeepSeek近期改进

│ 注意力改进三大方向 ││ ││ 1️⃣ 效率优化 ││ • Flash Attention (减少内存访问) ││ • GQA/MQA (减少 KV-Cache) ││ • MLA (压缩存储) ││ ││ 2️⃣ 长上下文支持 ││ • RoPE (更好的位置外推) ││ • 滑动窗口/稀疏注意力 ││ • 动态缩放 (YaRN 等) ││ ││ 3️⃣ 效果提升 ││ • 更多注意力头 │

#transformer#深度学习#人工智能
讲透Transformer(三):Transformer 注意力机制详解与Qwen/DeepSeek近期改进

│ 注意力改进三大方向 ││ ││ 1️⃣ 效率优化 ││ • Flash Attention (减少内存访问) ││ • GQA/MQA (减少 KV-Cache) ││ • MLA (压缩存储) ││ ││ 2️⃣ 长上下文支持 ││ • RoPE (更好的位置外推) ││ • 滑动窗口/稀疏注意力 ││ • 动态缩放 (YaRN 等) ││ ││ 3️⃣ 效果提升 ││ • 更多注意力头 │

#transformer#深度学习#人工智能
NVIDIA 正式开源cuda-oxide!Rust 编写 CUDA 内核新范式!

摘要: NVIDIA开源cuda-oxide,支持用纯Rust编写CUDA内核并直接编译为PTX代码,无需依赖C/C++或FFI绑定。该工具作为rustc定制后端,通过MIR→Pliron IR→LLVM的编译流水线生成高效GPU代码,在B200显卡上实现868 TFLOPS的GEMM性能(达cuBLAS理论峰值的58%)。cuda-oxide提供三层安全抽象(安全API、受控unsafe、原始硬

文章图片
#rust
PingCAP 分布式数据库TiDB介绍

PingCAP的分布式关系型数据库 TiDB 作为 Google F1 的开源实现,目前 TiDB 的两个子项目 (TiDB + TiKV) 在 GitHub 社区上已经总共收获超过 10000 个 Stars,在分布式数据库领域也是全球顶级的开源项目,共有来自全球各地的 90 多位代码贡献者,是 HackerNews 头条的常客。TiDB 为什么如此受关注?作为一款 NewSQL 分布式数据库

#数据库#分布式
python装饰器详解

“你会Python嘛?”“我会!”‘那你给我讲下Python装饰器吧!’“Python装饰器啊?我没用过哎”简言之,python装饰器就是用于拓展原来函数功能的一种函数,这个函数的特殊之处在于它的返回值也是一个函数,使用python装饰器的好处就是在不用更改原函数的代码前提下给函数增加新的功能。一般而言,我们要想拓展原来函数代码,最直接的办法就是侵入代码里面修改,例如:...

#python
vscode自动升级后无法打开远程解决方案

【代码】vscode自动升级后无法打开远程解决方案。

#linux
vscode升级1.86报错 waiting for server log解决

vscode自动升级1.86报错Waiting for server log

文章图片
#vscode#ide#编辑器
腾讯混元 Hy3-preview 模型解读:姚顺雨领衔,295B 参数主打落地场景

Hy3-preview 的发布不仅是技术的迭代,更反映了腾讯在大模型策略上的务实转变——以 295B 的“小身材”换取在元宝、ima 等亿级用户产品中的流畅体验。对于普通用户而言,无需关注参数大小,打开元宝 App 或 ima,体验的便是由姚顺雨团队带来的最新 AI 能力。参考资料。

#语言模型
CUDA编程模型与硬件执行层级对应关系

实际使用 cuBLAS 时,1000×1000 这种规模往往会受到 kernel launch、调度、数据读写等开销影响,真实耗时通常会比上述微秒级下界更高一些(常见到几十微秒量级,取决于是否批处理、数据是否已在 GPU、是否使用合适的 GEMM 接口等)。:以上是"理论下界"。所以 grid size 不直接"对应某个 SM",它只是提供足够多的 block 让所有 SM 忙起来(提高占用与吞吐

#人工智能#linux#算法
    共 54 条
  • 1
  • 2
  • 3
  • 6
  • 请选择