
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: HarmonyOS NEXT 在 Ascend 310P NPU上实现LLM端侧推理,面临从云端到端侧的三大转变:内存(32GB→8GB)、带宽(1.2TB/s→68GB/s)和功耗(300W→25W)。通过cann-recipes-harmony-infer提供端到端解决方案,包括: ONNX→OM模型转换,支持INT8量化和动态batch 对称INT8量化技术(scale=max(|x

Flutter 凭借跨端统一、高适配、强协同的技术优势,完美解决了物流行业信息不透明、链路协同弱、运营效率低等核心痛点。本文构建的智慧物流服务平台,基于 Flutter 实现了从货主发货、司机找货、仓储管理到运输追踪、数据管控的全流程闭环,通过物流专属优化提升了物流运营效率与服务体验。在实践过程中,Flutter 不仅降低了智慧物流系统的开发与维护成本,更通过实时数据协同与智能服务能力,推动了物流

聚焦物流行业 “高效履约、精准追踪、透明协同” 核心需求,覆盖订单创建、货物揽收、运输跟踪、签收确认四大高频场景,5 行极简代码 + 全景式场景解析,适配寄件人、快递员、仓储管理员、收件人跨端使用,全文约 2000 字。

摘要:Continuous Batching 提升 LLM 推理效率的关键技术 传统静态批处理(Static Batching)在LLM推理中存在严重资源浪费问题,当批处理中请求长度差异较大时(如12-2048 tokens),短请求完成后GPU/NPU会长时间空转等待最长请求完成,导致吞吐量仅为峰值性能的25%。Continuous Batching通过动态槽位管理实现三大创新: 请求抢占机制:

摘要:Continuous Batching 提升 LLM 推理效率的关键技术 传统静态批处理(Static Batching)在LLM推理中存在严重资源浪费问题,当批处理中请求长度差异较大时(如12-2048 tokens),短请求完成后GPU/NPU会长时间空转等待最长请求完成,导致吞吐量仅为峰值性能的25%。Continuous Batching通过动态槽位管理实现三大创新: 请求抢占机制:

摘要: 175B参数大模型训练需要组合三种并行策略:数据并行(DP)跨节点、张量并行(TP)节点内跨卡、流水线并行(PP)跨层。torchtitan-npu推荐DP8×TP4×PP2配置,共64张NPU。TP通过权重分片和激活通信降低显存,PP采用1F1B调度减少流水线气泡。组合策略根据物理带宽特点:TP通信密集放节点内高速链路,DP通信较少放节点间低速网络。实现包含TP层封装、PP微批次调度和3

摘要: 175B参数大模型训练需要组合三种并行策略:数据并行(DP)跨节点、张量并行(TP)节点内跨卡、流水线并行(PP)跨层。torchtitan-npu推荐DP8×TP4×PP2配置,共64张NPU。TP通过权重分片和激活通信降低显存,PP采用1F1B调度减少流水线气泡。组合策略根据物理带宽特点:TP通信密集放节点内高速链路,DP通信较少放节点间低速网络。实现包含TP层封装、PP微批次调度和3

摘要: 175B参数大模型训练需要组合三种并行策略:数据并行(DP)跨节点、张量并行(TP)节点内跨卡、流水线并行(PP)跨层。torchtitan-npu推荐DP8×TP4×PP2配置,共64张NPU。TP通过权重分片和激活通信降低显存,PP采用1F1B调度减少流水线气泡。组合策略根据物理带宽特点:TP通信密集放节点内高速链路,DP通信较少放节点间低速网络。实现包含TP层封装、PP微批次调度和3

CUTLASS和catlass是NVIDIA和昇腾分别开发的矩阵乘法模板库,采用C++模板元编程在编译期生成高效算子。核心思想是将算子参数化为可组合的模板,在编译期确定tile大小、数据布局和指令选择,运行时仅执行数据搬运和计算。通过Tile Iterator抽象实现编译期向量化加载,利用if constexpr实现算子融合(如GEMM+Bias+ReLU),避免多次内存访问。这种模板元编程方法解

CUTLASS和catlass是NVIDIA和昇腾分别开发的矩阵乘法模板库,采用C++模板元编程在编译期生成高效算子。核心思想是将算子参数化为可组合的模板,在编译期确定tile大小、数据布局和指令选择,运行时仅执行数据搬运和计算。通过Tile Iterator抽象实现编译期向量化加载,利用if constexpr实现算子融合(如GEMM+Bias+ReLU),避免多次内存访问。这种模板元编程方法解








