logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Docker#8】Docker 网络概述

Docker网络管理在隔离与连通间取得平衡,核心架构包括CNM模型、Libnetwork库及多种驱动。主要网络模式有bridge(默认)、host、container、none和overlay,分别适用于单机通信、高性能、共享网络、完全隔离和跨主机集群场景。

文章图片
#docker#网络#容器 +1
Catlass 算子模板库:深度解构 NPU 核心 Cube 单元的 GEMM 性能极限工程与数据流控制

Catlass(CANN Atlas)算子模板库是异构计算平台中实现高性能通用矩阵乘法(GEMM)的基石。它超越了传统 BLAS 库的范畴,通过 C++ 模板元编程技术,将硬件架构细节(如 Cube Unit 的位宽、L0 缓存大小、DMA 引擎控制)直接编码到算子定义中。Catlass 的核心目标是在 LLM 等计算密集型任务中,实现和。

#矩阵#架构#线性代数
CANN PyPTO 深度解析:结构化并行编程范式的极致优化

PyPTO 允许开发者插入自定义的 Vector 指令。Intrinsics 调用:在 Compute 阶段,开发者可以直接调用 Ascend C 提供的底层 Intrinsics(如ExpReciprocalSoftmax等),构建复杂的非线性变换逻辑。Mask 处理:针对变长序列或 Padding 场景,PyPTO 支持向量掩码(Vector Mask)操作,精确控制哪些元素参与计算,防止越界

#矩阵#架构#线性代数
CANN PyPTO 深度解析:结构化并行编程范式的极致优化

PyPTO 允许开发者插入自定义的 Vector 指令。Intrinsics 调用:在 Compute 阶段,开发者可以直接调用 Ascend C 提供的底层 Intrinsics(如ExpReciprocalSoftmax等),构建复杂的非线性变换逻辑。Mask 处理:针对变长序列或 Padding 场景,PyPTO 支持向量掩码(Vector Mask)操作,精确控制哪些元素参与计算,防止越界

#矩阵#架构#线性代数
CANN GE 深度解析:图编译与执行引擎的优化管线、Stream 调度与模型下沉机制

在异构计算体系中,计算图的编译与优化是释放底层硬件算力的关键环。图引擎(Graph Engine, GE)作为核心组件,承担着将高层框架逻辑转化为硬件可执行序列的重任。通过深度的静态分析与动态调度,GE 不仅解决了内存墙与访存瓶颈,更在复杂的分布式与异构场景下展现了卓越的编排能力。

#容器#后端
CANN GE 深度解析:图编译器与执行引擎的后端优化策略、OM 文件结构与 Stream 调度机制

GE 将逻辑图节点转化为低级执行任务。Task 类型定义:编译输出包含 Kernel Launch Tasks (启动ops-math或ops-nn核函数)、Memcpy Tasks (Host/Device 间数据搬运)、以及 Synchronization Tasks (控制依赖)。Stream 分组:GE 根据数据依赖关系,将这些 Task 划分到不同的执行流(Stream)中。一个 Str

#容器
CANN GE 深度解析:图编译器与执行引擎的后端优化策略、OM 文件结构与 Stream 调度机制

GE 将逻辑图节点转化为低级执行任务。Task 类型定义:编译输出包含 Kernel Launch Tasks (启动ops-math或ops-nn核函数)、Memcpy Tasks (Host/Device 间数据搬运)、以及 Synchronization Tasks (控制依赖)。Stream 分组:GE 根据数据依赖关系,将这些 Task 划分到不同的执行流(Stream)中。一个 Str

#容器
CANN Catlass 深度解析:高性能 GEMM 算子模板库的极致优化之道

在深度学习的计算图谱中,通用矩阵乘法(General Matrix Multiplication, GEMM)占据了绝大多数的计算周期。无论是 CNN 中的卷积操作,还是 Transformer 中的 Attention 机制,底层核心皆为 GEMM。正是为解决这一核心痛点而生,它作为一套基于 C++ Template 的高性能算子库,专门针对 CANN 架构下的 AI 处理器(NPU)设计,旨在

#矩阵#线性代数
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择