logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据排布的艺术-Ascend C中最大化存储效率的格式选择

本文深入探讨了昇腾NPU数据排布格式(DataLayout)的优化原理与技术演进。从NCHW/NHWC到NC1HWC0再到FRACTAL_NZ,详细解析了每种格式对应的硬件计算粒度与内存访问模式,并提供了完整的AscendC格式转换算子实现。文章重点分享了五大格式优化黄金法则,包括硬件粒度对齐、访问连续性优先等核心原则,以及在千亿参数大模型训练中的实战经验。同时展望了面向稀疏计算与存算一体的下一代

文章图片
#人工智能#CANN#昇腾
MateChat思维链(Chain-of-Thought)技术解析:复杂推理任务分解策略

本文深度解析MateChat思维链(Chain-of-Thought, CoT)​ 技术的架构设计与实现方案。面对复杂推理任务中LLM直接生成准确率低的问题(数学推理<40%,逻辑推理<50%),我们提出多粒度思维链分解框架,实现从问题理解、子问题分解、逐步推理到结果验证的完整推理链条。通过完整的Python代码实现,展示如何将复杂问题分解准确率提升至85%+,推理质量提升2.3倍。文章包含代码分

文章图片
#人工智能#算法#机器学习
Qwen2.5、Llama 3.1轻量模型本地化部署指南:从环境配置到企业级实战

摘要:本文系统介绍了Qwen2.5、Llama3.1等轻量模型的本地化部署全流程,重点分析了Ollama、vLLM和Transformers三种核心方案的技术原理与实战应用。通过量化技术(8位/4位)显著降低硬件需求,在消费级设备上实现高效推理(RTX3060可达120+tokens/s)。企业级应用部分涵盖Web界面集成、SpringBoot对接及性能优化策略,提供完整的Docker和代码示例。

文章图片
Rust 并发编程进阶:无锁数据结构与原子操作的艺术

无锁编程技术摘要:本文系统讲解了无锁并发编程的核心技术,包括原子操作、内存排序模型和CAS操作。重点分析了Acquire-Release同步机制、自旋锁实现原理,并详细展示了无锁计数器、栈和队列等数据结构的实现方法。通过性能对比测试,无锁方案相比传统锁机制可获得4-10倍的性能提升。文章还讨论了ABA问题等常见陷阱的解决方案,最后提供了一个无锁性能监控系统的实战案例。全文兼顾理论深度和实践指导,为

文章图片
#rust#数据结构#开发语言
Rust WebAssembly 开发实战:从 Web 应用到边缘计算

本文将深入探讨Rust与WebAssembly(Wasm)的结合应用。文章从Rust+Wasm的优势讲起,详细介绍了环境搭建、项目创建和编译测试流程,并深度解析wasm-bindgen工具链的类型映射、数据传递和DOM操作。通过图像处理、性能测试和游戏引擎等实战案例,展示了Rust+Wasm的高性能特性。同时提供了减小二进制大小、避免克隆和使用TypedArray等优化技巧,以及浏览器、Node.

文章图片
#rust#wasm#后端 +1
数据排布的艺术-Ascend C中最大化存储效率的格式选择

本文深入探讨了昇腾NPU数据排布格式(DataLayout)的优化原理与技术演进。从NCHW/NHWC到NC1HWC0再到FRACTAL_NZ,详细解析了每种格式对应的硬件计算粒度与内存访问模式,并提供了完整的AscendC格式转换算子实现。文章重点分享了五大格式优化黄金法则,包括硬件粒度对齐、访问连续性优先等核心原则,以及在千亿参数大模型训练中的实战经验。同时展望了面向稀疏计算与存算一体的下一代

文章图片
#人工智能#CANN#昇腾
突破算力壁垒:Triton-on-Ascend异构计算新范式深度解析与实战

《Triton-on-Ascend技术解析与应用实践》摘要 本文系统阐述了Triton-on-Ascend如何通过高层抽象编程模型突破AI算力瓶颈。针对昇腾AI处理器特性,深入剖析了分层编译架构与SPMD并行编程范式的实现机制,提供从环境部署到算子优化的全流程实战指南。重点探讨了网格配置、内存访问优化等核心技巧,并通过性能对比数据验证其在开发效率与计算性能间的平衡优势。文章还分享了企业级自动调优策

文章图片
#CANN#昇腾
Triton - Ascend算子调试技巧:从入门到精通

本文系统介绍了Triton在昇腾AI处理器上的算子调试全流程。首先阐述了Triton调试的重要性及其复杂性来源,然后详细解析了调试工具链,包括Triton内置调试算子、AscendDebugger硬件级调试和CPU/NPU孪生调试策略。文章深入讲解了性能分析工具msProf的使用方法,以及如何识别和分类计算瓶颈、内存瓶颈等性能问题。针对常见调试场景,提供了内存对齐、Atomic操作等问题的具体解决

文章图片
#昇腾#CANN#Triton
Ascend C核心编程模型揭秘:面向异构计算的并行处理能力

本文深入剖析华为昇腾AI处理器专属的Ascend C编程语言,重点解析其核函数(Kernel)任务并行(Task Parallelism)​ 与数据搬运(Data Move)​ 三大核心机制。通过对比传统CUDA编程范式,揭示Ascend C如何在达芬奇架构(Da Vinci Architecture)​ 上实现更精细化的计算资源控制,结合完整可运行的向量加法实例,展示如何通过双缓冲(Double

文章图片
#CANN#昇腾
深度解密:MoE模型中的门控路由机制与MoeGatingTopK算法实现

本文深入解析混合专家(MoE)模型中的门控路由机制,重点探讨MoeGatingTopK算子的数学原理与工程实现。从传统Dense模型到MoE模型的范式转变出发,详细阐述门控路由的数学基础、Top-K选择算法优化及负载均衡技术。通过对比不同路由策略,提供动态K值调整、可微分路由等实战技巧,并分析常见性能瓶颈及优化方法。文章还展望了自适应路由、跨层专家共享等未来发展方向,为开发者提供大规模MoE模型的

文章图片
#昇腾#CANN
    共 45 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择