logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【C++STL】之unordered_map与unordered_set系列容器的使用

这个类对象的前两个模板参数我们都很熟悉,Key值和Value值的元素类型。第三个是哈希函数:因为我们要将Key转化成一个索引(整数),但是这个key值的类型不一定是整数,就需要我们使用特定的哈希函数去转化为整数,这个整数可能不符合数组的下标范围,需要我们继续处理,这个我们后面具体谈到哈希再说。第三个模板参数是一个仿函数类,如果两个值相等,就返回true这个和map除了底层不一样,其它都很相似。un

文章图片
#c++#开发语言
【Linux网络编程】之配置阿里云安全组

在Linux中,防火墙是一种网络安全机制,用于控制网络流量的进出。它通过一组规则(称为防火墙规则)来决定哪些网络流量可以进入或离开系统,哪些流量应被拒绝或限制。防火墙的核心目的是防止恶意攻击、网络入侵,以及控制系统的网络通信。安装firewalld。启动和启用firewalld服务。# 启动 firewalld 服务 sudo systemctl start firewalld # 设置 fire

文章图片
#linux#网络#阿里云
探索CANN框架中ascend-transformer-boost仓库:Transformer模型的极致融合加速库

华为CANN框架中的ascend-transformer-boost(ATB)是一个专为Transformer模型优化的高性能融合算子库,通过将多个小算子合并为超级算子,显著提升计算效率。该库支持FlashAttention、FFN深度融合、RoPE优化等关键技术,在LLaMA、Qwen等大模型上实现1.6-3倍加速,并节省30-55%显存。ATB位于CANN生态的专用加速层,通过SRAM分块、在

#transformer#深度学习#人工智能
探索CANN框架中ascend-transformer-boost仓库:Transformer模型的极致融合加速库

华为CANN框架中的ascend-transformer-boost(ATB)是一个专为Transformer模型优化的高性能融合算子库,通过将多个小算子合并为超级算子,显著提升计算效率。该库支持FlashAttention、FFN深度融合、RoPE优化等关键技术,在LLaMA、Qwen等大模型上实现1.6-3倍加速,并节省30-55%显存。ATB位于CANN生态的专用加速层,通过SRAM分块、在

#transformer#深度学习#人工智能
探索CANN框架中ascend-transformer-boost仓库:Transformer模型的极致融合加速库

华为CANN框架中的ascend-transformer-boost(ATB)是一个专为Transformer模型优化的高性能融合算子库,通过将多个小算子合并为超级算子,显著提升计算效率。该库支持FlashAttention、FFN深度融合、RoPE优化等关键技术,在LLaMA、Qwen等大模型上实现1.6-3倍加速,并节省30-55%显存。ATB位于CANN生态的专用加速层,通过SRAM分块、在

#transformer#深度学习#人工智能
探索CANN框架中hcomm仓库:分布式通信底座的底层支撑与深度实现

摘要: 华为CANN框架中的hcomm仓库是支撑分布式AI训练的核心通信底座,针对Ascend NPU集群优化,解决了万卡级训练中的通信瓶颈问题。hcomm位于HCCL底层,负责高效实现集合通信原语,通过解耦设计、拓扑感知、零拷贝、异步流水线等关键技术,显著降低通信开销(案例显示优化后通信占比从45%降至12%)。其核心模块包括通信域管理、资源池、协议抽象等,支持分层容错与动态扩展。相比NCCL,

#分布式
探索CANN框架中hcomm仓库:分布式通信底座的底层支撑与深度实现

摘要: 华为CANN框架中的hcomm仓库是支撑分布式AI训练的核心通信底座,针对Ascend NPU集群优化,解决了万卡级训练中的通信瓶颈问题。hcomm位于HCCL底层,负责高效实现集合通信原语,通过解耦设计、拓扑感知、零拷贝、异步流水线等关键技术,显著降低通信开销(案例显示优化后通信占比从45%降至12%)。其核心模块包括通信域管理、资源池、协议抽象等,支持分层容错与动态扩展。相比NCCL,

#分布式
探索CANN框架中hcomm仓库:分布式通信底座的底层支撑与深度实现

摘要: 华为CANN框架中的hcomm仓库是支撑分布式AI训练的核心通信底座,针对Ascend NPU集群优化,解决了万卡级训练中的通信瓶颈问题。hcomm位于HCCL底层,负责高效实现集合通信原语,通过解耦设计、拓扑感知、零拷贝、异步流水线等关键技术,显著降低通信开销(案例显示优化后通信占比从45%降至12%)。其核心模块包括通信域管理、资源池、协议抽象等,支持分层容错与动态扩展。相比NCCL,

#分布式
剖析CANN框架中Runtime仓库:AI应用运行时的关键支撑

CANN框架的Runtime仓库是AI应用运行时的核心支撑,为Ascend NPU提供硬件资源管理、数据预处理、算子执行等关键功能。其模块化设计包含资源管理、媒体处理、执行引擎等组件,通过优化内存池、流调度和并行计算显著提升性能。仓库提供丰富的C++/Python示例,涵盖设备初始化、模型推理全流程,支持云端训练到边缘推理场景。相比CUDA和TensorRT,Runtime在Ascend硬件上具有

文章图片
#人工智能#华为#c++ +1
剖析CANN框架中Runtime仓库:AI应用运行时的关键支撑

CANN框架的Runtime仓库是AI应用运行时的核心支撑,为Ascend NPU提供硬件资源管理、数据预处理、算子执行等关键功能。其模块化设计包含资源管理、媒体处理、执行引擎等组件,通过优化内存池、流调度和并行计算显著提升性能。仓库提供丰富的C++/Python示例,涵盖设备初始化、模型推理全流程,支持云端训练到边缘推理场景。相比CUDA和TensorRT,Runtime在Ascend硬件上具有

文章图片
#人工智能#华为#c++ +1
    共 26 条
  • 1
  • 2
  • 3
  • 请选择