是Dream呀个人主页

@weixin_51390582

是Dream呀

2022-09-09 17:14:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾NPU上编译Apex：从踩坑到搞定

我们用的是MindIE的openEuler镜像，先装基础依赖：暂时无法在飞书文档外展示此内容然后就可以开始执行编译：暂时无法在飞书文档外展示此内容Apex编译看似简单,实则暗藏许多细节。本文通过真实案例,深入剖析了从网络代理到系统库路径的各个环节。Docker守护进程代理配置容易漏lib和lib64路径差异编译脚本会覆盖手动修改希望大家可以学习一些经验教训，对于大模型训练来说，Apex基本是必备工

速度与精度的结合：Faster R-CNN模型的性能剖析

目标检测作为计算机视觉领域的核心问题之一，其重要性随着深度学习技术的发展而日益凸显。本文深入探讨了基于深度学习的Faster R-CNN模型，这是一种革命性的目标检测框架，它通过引入区域提议网络（Region Proposal Network, RPN）显著提高了目标检测的速度和准确性。本文将详细介绍Faster R-CNN的关键技术、实验步骤以及在标准数据集上的性能表现。

#r语言 #cnn #开发语言

昇腾NPU上编译Apex：从踩坑到搞定

更新系统# 编译工具# Python开发包# torchApex编译看似简单,实则暗藏许多细节。本文通过真实案例,深入剖析了从网络代理到系统库路径的各个环节。Docker守护进程代理配置容易漏lib和lib64路径差异编译脚本会覆盖手动修改希望大家可以学习一些经验教训，对于大模型训练来说，Apex基本是必备工具。昇腾适配版虽然有些小坑，但整体可用性还不错，注明：昇腾PAE案例库对本文写作亦有帮助。

vLLM适配昇腾NPU：DeepSeek-V3 PD分离部署完整流程

做过大模型推理优化的朋友都知道,Prefill和Decode这两个阶段的性质完全不同:Prefill阶段就像是读完整本书做笔记——需要把用户输入的完整prompt编码成隐藏状态,同时生成KV Cache。这个过程计算量大,吃算力。Decode阶段更像是一个字一个字往外蹦——每次只生成一个token,一直重复到结束。这个过程主要瓶颈在显存带宽,属于典型的访存密集型任务。两个阶段混在一起跑,就会出现资

#人工智能

vLLM适配昇腾NPU：DeepSeek-V3 PD分离部署完整流程

#人工智能

共 101 条

请选择