logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【贡献经历】成为Kurator Maintainer的心路历程:责任、挑战与成长

摘要:本文记录了作者从Kurator使用者成长为项目Maintainer的全过程。通过参与集群生命周期管理、舰队能力开发等核心功能,作者主导实现了集群弹性伸缩、多集群网络优化及统一备份恢复功能。文章深入解析了Kurator基于ClusterAPI的扩展机制、多集群调度算法等关键技术,并分享了开源社区协作经验。作者从技术视野扩展、系统设计能力提升等方面总结了成长收获,展望了Kurator在智能调度、

文章图片
#分布式#云原生#集群
【前瞻创想】面向未来:分布式云原生技术的三大趋势与Kurator的演进方向

摘要:分布式云原生技术正经历从"多云共存"到"多云融合"的变革,呈现三大趋势:多云多集群成为默认选项、AI原生运维与算力编排兴起、云边端一体化发展。本文系统介绍了开源平台Kurator的技术架构,包括其创新的"舰队"抽象层、智能调度算法和云边协同能力,通过实际案例展示了Kurator如何整合主流开源项目,构建面向未来的分布式云原生基础设施

文章图片
#分布式#云原生
【探索实战】30分钟搭建企业级分布式云原生平台:基于Kurator的全链路实践指南

本文基于笔者多年的云原生实战经验,详细记录如何使用Kurator在30分钟内快速构建生产可用的分布式云原生平台。文章从实际环境准备入手,逐步演示Kurator控制平面的一键部署、多集群无缝接入、统一应用分发等核心功能。关键技术点包括舰队管理抽象GitOps跨集群交付统一监控策略,并针对网络配置、镜像拉取等常见问题提供实战解决方案。通过真实性能数据验证,单控制平面可管理100+集群,应用分发效率提升

文章图片
#分布式#云原生#集群
【探索实战】30分钟搭建企业级分布式云原生平台:基于Kurator的全链路实践指南

本文基于笔者多年的云原生实战经验,详细记录如何使用Kurator在30分钟内快速构建生产可用的分布式云原生平台。文章从实际环境准备入手,逐步演示Kurator控制平面的一键部署、多集群无缝接入、统一应用分发等核心功能。关键技术点包括舰队管理抽象GitOps跨集群交付统一监控策略,并针对网络配置、镜像拉取等常见问题提供实战解决方案。通过真实性能数据验证,单控制平面可管理100+集群,应用分发效率提升

文章图片
#分布式#云原生#集群
CANN ops-math Softmax数值稳定技术 溢出防护与log-sum-exp技巧详解

作为一名拥有13年实战经验的AI加速库老炮儿,今天咱们来扒一扒CANN项目中那个让人又爱又恨的Softmax算子。🦾 软最大函数作为深度学习中的“流量担当”,几乎出现在所有分类任务中,但其数值稳定性问题却让多少工程师深夜掉头发!本文将深度解析中采用的max-val归一化机制和log-sum-exp魔法,揭秘如何在NPU上实现既快又稳的Softmax计算。关键亮点包括:逐行解码溢出防护逻辑、FP1

文章图片
#人工智能#CANN
CANN ops-math Softmax数值稳定技术 溢出防护与log-sum-exp技巧详解

作为一名拥有13年实战经验的AI加速库老炮儿,今天咱们来扒一扒CANN项目中那个让人又爱又恨的Softmax算子。🦾 软最大函数作为深度学习中的“流量担当”,几乎出现在所有分类任务中,但其数值稳定性问题却让多少工程师深夜掉头发!本文将深度解析中采用的max-val归一化机制和log-sum-exp魔法,揭秘如何在NPU上实现既快又稳的Softmax计算。关键亮点包括:逐行解码溢出防护逻辑、FP1

文章图片
#人工智能#CANN
ops-nn BatchNorm训练优化 均值方差跨卡同步策略深度剖析

摘要:本文深入探讨分布式训练中BatchNorm同步的关键技术,以ops-nn的bn_training.cpp实现为例,解析HCCL通信库的all_reduce优化策略。通过异步流水线设计、缓冲区复用和拓扑感知路由三大原则,实现计算通信重叠,在ResNet-50训练中达到99.8%的精度对齐,同步开销降低40%。文章包含完整的代码实现、性能对比数据及13年实战经验总结的调优技巧,包括通信死锁排查、

文章图片
#wpf#CANN
CANN Runtime初始化源码 从aclInit到设备驱动加载

本文深度解析CANN Runtime初始化全流程,基于ops-nn等核心模块的真实代码,追踪从aclInit调用到设备驱动加载的完整链路。文章涵盖驱动模块动态加载、设备枚举策略、资源池创建等关键技术点,通过源码分析揭示大型AI框架的启动优化艺术。包含完整的初始化流程图、性能优化数据和实战案例,为深入理解Runtime架构提供完整指南。通过深度分析CANN Runtime初始化源码,我们看到了工业级

文章图片
#开发语言#CANN
CANN Runtime初始化源码 从aclInit到设备驱动加载

本文深度解析CANN Runtime初始化全流程,基于ops-nn等核心模块的真实代码,追踪从aclInit调用到设备驱动加载的完整链路。文章涵盖驱动模块动态加载、设备枚举策略、资源池创建等关键技术点,通过源码分析揭示大型AI框架的启动优化艺术。包含完整的初始化流程图、性能优化数据和实战案例,为深入理解Runtime架构提供完整指南。通过深度分析CANN Runtime初始化源码,我们看到了工业级

文章图片
#开发语言#CANN
图引擎设计哲学 确定性执行原则落地实践

本文深度剖析CANN运行时核心生命周期的对称设计。通过对比aclInit和的源码实现,揭示资源分配与释放的精确镜像关系。重点分析全局状态机管理、线程安全初始化、资源泄漏防护等关键技术,为高性能AI计算框架的稳健性设计提供最佳实践参考。文章包含真实性能数据和生产级代码示例,直击分布式系统资源管理痛点。CANN运行时的生命周期管理体现了工业级软件设计的精髓。通过对称的资源管理、异常安全保证和线程安全控

文章图片
#算法#CANN
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择