wuli_滔滔个人主页

@weixin_43862642

wuli_滔滔

2023-06-25 16:38:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

数据排布的艺术-Ascend C中最大化存储效率的格式选择

本文深入探讨了昇腾NPU数据排布格式（DataLayout）的优化原理与技术演进。从NCHW/NHWC到NC1HWC0再到FRACTAL_NZ，详细解析了每种格式对应的硬件计算粒度与内存访问模式，并提供了完整的AscendC格式转换算子实现。文章重点分享了五大格式优化黄金法则，包括硬件粒度对齐、访问连续性优先等核心原则，以及在千亿参数大模型训练中的实战经验。同时展望了面向稀疏计算与存算一体的下一代

#人工智能 #CANN #昇腾

MateChat思维链（Chain-of-Thought）技术解析：复杂推理任务分解策略

本文深度解析MateChat思维链（Chain-of-Thought, CoT）技术的架构设计与实现方案。面对复杂推理任务中LLM直接生成准确率低的问题（数学推理<40%，逻辑推理<50%），我们提出多粒度思维链分解框架，实现从问题理解、子问题分解、逐步推理到结果验证的完整推理链条。通过完整的Python代码实现，展示如何将复杂问题分解准确率提升至85%+，推理质量提升2.3倍。文章包含代码分

#人工智能 #算法 #机器学习

Qwen2.5、Llama 3.1轻量模型本地化部署指南：从环境配置到企业级实战

摘要：本文系统介绍了Qwen2.5、Llama3.1等轻量模型的本地化部署全流程，重点分析了Ollama、vLLM和Transformers三种核心方案的技术原理与实战应用。通过量化技术（8位/4位）显著降低硬件需求，在消费级设备上实现高效推理（RTX3060可达120+tokens/s）。企业级应用部分涵盖Web界面集成、SpringBoot对接及性能优化策略，提供完整的Docker和代码示例。

Rust 并发编程进阶：无锁数据结构与原子操作的艺术

无锁编程技术摘要：本文系统讲解了无锁并发编程的核心技术，包括原子操作、内存排序模型和CAS操作。重点分析了Acquire-Release同步机制、自旋锁实现原理，并详细展示了无锁计数器、栈和队列等数据结构的实现方法。通过性能对比测试，无锁方案相比传统锁机制可获得4-10倍的性能提升。文章还讨论了ABA问题等常见陷阱的解决方案，最后提供了一个无锁性能监控系统的实战案例。全文兼顾理论深度和实践指导，为

#rust #数据结构 #开发语言

Rust WebAssembly 开发实战：从 Web 应用到边缘计算

本文将深入探讨Rust与WebAssembly(Wasm)的结合应用。文章从Rust+Wasm的优势讲起，详细介绍了环境搭建、项目创建和编译测试流程，并深度解析wasm-bindgen工具链的类型映射、数据传递和DOM操作。通过图像处理、性能测试和游戏引擎等实战案例，展示了Rust+Wasm的高性能特性。同时提供了减小二进制大小、避免克隆和使用TypedArray等优化技巧，以及浏览器、Node.

#rust #wasm #后端 +1

数据排布的艺术-Ascend C中最大化存储效率的格式选择

#人工智能 #CANN #昇腾

突破算力壁垒：Triton-on-Ascend异构计算新范式深度解析与实战

《Triton-on-Ascend技术解析与应用实践》摘要本文系统阐述了Triton-on-Ascend如何通过高层抽象编程模型突破AI算力瓶颈。针对昇腾AI处理器特性，深入剖析了分层编译架构与SPMD并行编程范式的实现机制，提供从环境部署到算子优化的全流程实战指南。重点探讨了网格配置、内存访问优化等核心技巧，并通过性能对比数据验证其在开发效率与计算性能间的平衡优势。文章还分享了企业级自动调优策

#CANN #昇腾

Triton - Ascend算子调试技巧：从入门到精通

本文系统介绍了Triton在昇腾AI处理器上的算子调试全流程。首先阐述了Triton调试的重要性及其复杂性来源，然后详细解析了调试工具链，包括Triton内置调试算子、AscendDebugger硬件级调试和CPU/NPU孪生调试策略。文章深入讲解了性能分析工具msProf的使用方法，以及如何识别和分类计算瓶颈、内存瓶颈等性能问题。针对常见调试场景，提供了内存对齐、Atomic操作等问题的具体解决

#昇腾 #CANN #Triton

Ascend C核心编程模型揭秘：面向异构计算的并行处理能力

本文深入剖析华为昇腾AI处理器专属的Ascend C编程语言，重点解析其核函数（Kernel）任务并行（Task Parallelism）与数据搬运（Data Move）三大核心机制。通过对比传统CUDA编程范式，揭示Ascend C如何在达芬奇架构（Da Vinci Architecture）上实现更精细化的计算资源控制，结合完整可运行的向量加法实例，展示如何通过双缓冲（Double

#CANN #昇腾

深度解密：MoE模型中的门控路由机制与MoeGatingTopK算法实现

本文深入解析混合专家（MoE）模型中的门控路由机制，重点探讨MoeGatingTopK算子的数学原理与工程实现。从传统Dense模型到MoE模型的范式转变出发，详细阐述门控路由的数学基础、Top-K选择算法优化及负载均衡技术。通过对比不同路由策略，提供动态K值调整、可微分路由等实战技巧，并分析常见性能瓶颈及优化方法。文章还展望了自适应路由、跨层专家共享等未来发展方向，为开发者提供大规模MoE模型的

#昇腾 #CANN

共 45 条

请选择