logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

性能瓶颈的克星:Ascend C 算子耗时分析与计算资源利用率优化

摘要:本文系统阐述了AscendC算子性能优化的方法论,聚焦计算资源利用率与耗时分析两大维度。基于昇腾AI处理器架构特性,提出性能三角模型(计算密度、内存带宽、并行度)作为分析框架,详细解析了双缓冲技术、向量化指令、流水线优化等核心技术。通过Matmul、Softmax等实战案例,展示如何将算子性能从理论值30%提升至80%以上。文章提供从理论分析到工程实践的完整优化路径,包含性能工具链使用、多核

文章图片
#昇腾#CANN
性能瓶颈的克星:Ascend C 算子耗时分析与计算资源利用率优化

摘要:本文系统阐述了AscendC算子性能优化的方法论,聚焦计算资源利用率与耗时分析两大维度。基于昇腾AI处理器架构特性,提出性能三角模型(计算密度、内存带宽、并行度)作为分析框架,详细解析了双缓冲技术、向量化指令、流水线优化等核心技术。通过Matmul、Softmax等实战案例,展示如何将算子性能从理论值30%提升至80%以上。文章提供从理论分析到工程实践的完整优化路径,包含性能工具链使用、多核

文章图片
#昇腾#CANN
性能瓶颈的克星:Ascend C 算子耗时分析与计算资源利用率优化

摘要:本文系统阐述了AscendC算子性能优化的方法论,聚焦计算资源利用率与耗时分析两大维度。基于昇腾AI处理器架构特性,提出性能三角模型(计算密度、内存带宽、并行度)作为分析框架,详细解析了双缓冲技术、向量化指令、流水线优化等核心技术。通过Matmul、Softmax等实战案例,展示如何将算子性能从理论值30%提升至80%以上。文章提供从理论分析到工程实践的完整优化路径,包含性能工具链使用、多核

文章图片
#昇腾#CANN
形状推导的智能:实现 Ascend C 算子动态 Shape 自适应计算的关键

摘要:本文深入探讨基于AscendC的算子动态Shape自适应计算技术。针对AI业务中动态、不可预测的输入张量形状问题,提出通过动态分块(DynamicTiling)和形状推导引擎(ShapeInferenceEngine)实现高性能算子开发。文章详细解析了从静态到动态的范式转移原理,并以动态Softmax算子为例,展示了Host侧参数计算、Device侧Kernel实现及双缓冲与流水线优化等关键

文章图片
#昇腾#CANN
【前瞻创想】基于Kurator构建智能化分布式AIGC管理平台:从理论到实践

摘要:本文系统阐述了Kurator分布式云原生平台与AIGC工作负载的深度整合方案。针对AIGC特有的计算密集型、数据密集型等特性,创新性地提出基于"舰队"范式的智能算力调度架构,通过增强的ClusterAPI、优化调度算法和端到端流水线管理,实现跨多云环境的资源高效利用。实测数据显示,该方案可提升GPU利用率至65-75%,降低40%训练成本,并支持分钟级全球部署。文章包含架

文章图片
#AIGC#分布式#算法
【探索实战】无缝融合:将已有Kubernetes集群接入Kurator Fleet全记录

本文系统阐述了Kurator在多集群管理中的创新实践,重点介绍了其附着集群(AttachedCluster)设计理念与技术实现。文章详细解析了集群认证、网络连通、状态同步等关键技术,并通过实战演示完整接入流程。Kurator采用非侵入式接入方式,支持5分钟内完成集群接入,降低80%管理复杂度。针对企业级需求,提供了安全加固、批量接入等高级实践方案,并通过金融行业案例验证了其在统一治理、合规审计方面

文章图片
#集群#分布式#云原生
`serde` 深度解析:Rust 序列化与反序列化的艺术

在现代软件中,数据交换(Data Interchange)无处不在,例如在 Web API (JSON)、配置文件 (TOML)OML) 或数据库 (Binary) 之间。// 目标:// Rust struct <---> JSON 字符串id: u64,传统方式是为每种格式(JSON, TOML, Bincode)编写特定的转换代码,这导致了大量的重复劳动和错误。serde解决了这个问题,它提

文章图片
#rust#开发语言#后端
深入 unsafe Rust 与“内部可变性”:Cell、RefCell 与 UnsafeCell

Rust 的借用规则(“一个可变引用&mut T”或“多个不可变引用&T”,但不能同时存在)在编译时保证了数据竞争的安全。// ❌ 编译错误// 错误:不能从 &String 获取 &mut String");但在某些设计模式中(如图形结构、缓存、观察者模式),我们确实需要在一个对象看似“不可变”(`&self时,修改其内部的某些字段。这就是内部可变性的用武之地。内部可变性:在&T(不可变) 引用

文章图片
#rust#开发语言#后端
Rust 命令行工具(CLI)实战:使用 `clap`、`anyhow` 和 `ratatui` 构建 TUI

Rust 是构建高性能、跨平台、单一二进制 命令行工具(CLI)的绝佳选择。本文将提供一个完整的指南,从零开始构建一个现代化的 CLI 工具。我们将使用clap(Command Line Argument Parser) 来定义和解析命令行参数,使用anyhow和thisrror来构建健壮的错误处理,并最终使用ratatui(一个tui-rs的活跃分支) 和cossterm来构建一个复杂的终端用户

文章图片
#rust#开发语言#后端
Rust 异步 Trait 详解:GAT、async-trait 库与 dyn Async

async fnasync fnin traits很难,因为它返回一个不透明的、带生命周期的类型。库:通过将async fn转换为返回的普通fn来解决此问题。易于使用,支持dyn Trait,但有堆分配和动态分发开销。GAT 模式:通过使用泛型关联类型()来精确定义返回的 Future 类型,实现零开销和**静态分发。Rust 1.75+:原生支持async fnin traits,编译器会自动使

文章图片
#算法#网络#前端 +2
    共 11 条
  • 1
  • 2
  • 请选择