logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RoPE硬件加速 复数旋转指令融合技术解析

摘要:本文提出一种基于复数旋转指令融合的RoPE位置编码硬件加速方案,通过SIMD向量化、内存布局优化和指令级并行三大关键技术,在Transformer架构中实现显著性能提升。实验表明,优化后的方案相比标量实现获得23%的吞吐提升,单批次处理4096维数据时达到27,512 tokens/s。文章详细解析了从数学原理到AVX2指令集实现的全链路优化方法,并提供了可落地的代码实现、性能分析工具链和常

文章图片
#android#CANN
AOE代价模型源码解读 如何评估NPU调度方案性能的硬核内幕

想要玩转AOE代价模型,首先得把环境搭好。# 环境要求:Python 3.8+, CANN 6.0+# 文件:custom_cost_model_demo.pyimport osimport sys"""自定义代价模型示例""""""核心评估方法"""# 多目标加权整合"""延迟评估实现"""# 模拟真实评估逻辑"""吞吐评估实现"""# 使用示例print(f"策略评估得分: {score:.3

文章图片
#CANN
OM模型序列化源码解析 ATC生成模型文件的二进制格式

OM模型文件是AI计算架构中承上启下的关键一环,它就像是一个编译好的可执行程序,包含了网络结构、权重数据、编译优化信息等一系列内容。本文将带大家深入仓库的源码腹地,像侦探一样剖析ATC工具是如何将内存中的计算图(Graph)对象,高效、稳定地序列化成二进制OM文件的。我们将重点关注其架构设计版本兼容性处理​ 的巧思,以及权重数据排布的优化细节。通过理解这套机制,你不仅能更从容地处理模型部署中的各种

文章图片
#人工智能#CANN
CANN仓库日志系统架构 分级日志与性能开销优化源码解读

本文深度解析CANN仓库日志系统的高性能架构设计。重点剖析日志级别动态控制、异步无阻塞写入、内存缓冲优化等核心技术,通过源码解读展示如何在大规模AI计算场景下实现低延迟、高吞吐的日志记录。文章包含完整的性能测试数据和实战优化方案,为分布式系统日志架构提供可复用的设计模式。CANN日志系统的高性能架构为大规模AI计算提供了可靠的运维支撑。通过异步无锁设计、智能缓冲管理和分布式聚合,在保证日志完整性的

文章图片
#系统架构#CANN
CANN仓库日志系统架构 分级日志与性能开销优化源码解读

本文深度解析CANN仓库日志系统的高性能架构设计。重点剖析日志级别动态控制、异步无阻塞写入、内存缓冲优化等核心技术,通过源码解读展示如何在大规模AI计算场景下实现低延迟、高吞吐的日志记录。文章包含完整的性能测试数据和实战优化方案,为分布式系统日志架构提供可复用的设计模式。CANN日志系统的高性能架构为大规模AI计算提供了可靠的运维支撑。通过异步无锁设计、智能缓冲管理和分布式聚合,在保证日志完整性的

文章图片
#系统架构#CANN
CANN仓库内存管理框架 智能指针与资源自动释放代码实践

本文深度解析CANN仓库中基于RAII模式的内存管理架构,涵盖智能指针封装、资源池设计、自动释放机制等核心技术。通过分析ops-nn等模块的真实代码,揭示工业级AI框架如何实现内存安全与高性能的平衡。文章包含完整的内存管理实现、性能优化数据和实战案例,为构建可靠的内存管理系统提供完整解决方案。通过深度分析CANN仓库的内存管理实现,我们看到了工业级RAII设计的艺术。优秀的内存管理系统需要在安全性

文章图片
#CANN
CANN仓库内存管理框架 智能指针与资源自动释放代码实践

本文深度解析CANN仓库中基于RAII模式的内存管理架构,涵盖智能指针封装、资源池设计、自动释放机制等核心技术。通过分析ops-nn等模块的真实代码,揭示工业级AI框架如何实现内存安全与高性能的平衡。文章包含完整的内存管理实现、性能优化数据和实战案例,为构建可靠的内存管理系统提供完整解决方案。通过深度分析CANN仓库的内存管理实现,我们看到了工业级RAII设计的艺术。优秀的内存管理系统需要在安全性

文章图片
#CANN
MateChat记忆化引擎设计:长期记忆与用户画像构建方案

本文深入解析MateChat记忆化引擎的架构设计与实现方案。记忆系统是对话AI从"工具"走向"伙伴"的关键技术,本文提出三层记忆架构(会话记忆/短期记忆/长期记忆),详细介绍基于向量检索+RAG的长期记忆实现、用户画像动态构建算法,以及保证数据一致性的双写策略。通过完整的代码实现和性能压测数据,展示如何在千万级对话上下文中实现毫秒级记忆检索。文章包含企业级部署的实战经验,如记忆碎片化、隐私安全等核

文章图片
#microsoft#架构
Ascend C 内存体系深潜:从硬件原理到极致优化,掌握Global Memory、UB与L1 Cache的高效数据搬运策略

摘要:本文系统解析昇腾AI处理器的多级内存架构,重点探讨Global Memory、Unified Buffer和L1 Cache的性能特性与协同机制。通过实测数据对比各层级内存的带宽/延迟差异,提出Double Buffer、向量化访问等核心优化技术,并给出完整的AscendC实现代码。文章包含矩阵乘法优化案例及大模型训练中的内存管理策略,提供性能分析工具使用指南,帮助开发者突破内存瓶颈,实现计

文章图片
#CANN#昇腾
MateChat知识检索进阶:多源数据融合与智能路由策略

本文深入解析MateChat多源知识检索系统的架构设计与核心算法。面对企业级场景中文档、代码、数据库、API文档等多源异构数据,传统单一检索方案命中率不足40%。我们提出四层智能路由架构,基于查询意图分析动态选择最优检索策略,实现混合检索(Hybrid Search)​ 与多轮重排(Multi-stage Reranking)。通过完整的代码实现和性能对比数据,展示如何在千万级知识库中实现85%+

文章图片
#架构
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择