logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

不只是聊天!在昇腾 910B 上硬核部署 SDXL:3秒出图的魔法

在昇腾 NPU 上跑通 SDXL,绝不仅仅是一次简单的模型部署,而是一场针对国产异构算力的深度适配之旅。我们从最初的依赖冲突、转换脚本缺失,一路过关斩将,解决了 MindSpore 静态图编译的内存崩塌(OOM)和严格的类型精度(Type Mismatch)问题。最终,我们探索出了一条**“PyNative 动态图 + 在线权重加载 + 自动化补丁”的黄金路径。这条路径证明了:在面对超大参数模型时

文章图片
#华为
拒绝“环境劝退”:Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录

在本次部署过程中,并非一帆风顺。以下是几个典型的“坑”及其解决方法,这也是本文最有价值的部分。通过本次在 GitCode Notebook 上的实操,我们成功实现了 Llama-2-7b 模型在昇腾 NPU 上的部署与推理。核心结论如下:环境就绪度高:使用官方提供的预置镜像(EulerOS + CANN + PyTorch),可以规避 90% 的底层驱动安装问题,让开发者专注于模型应用层。代码迁移

文章图片
#华为
极致算力释放:在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

在大模型推理技术的竞逐中,SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制,正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下,它对 KV Cache(键值缓存)的极致复用能力,使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾(Ascend)NPU,基于 GitCode Notebook 最新的Ubuntu

文章图片
#华为
极致算力释放:在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

在大模型推理技术的竞逐中,SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制,正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下,它对 KV Cache(键值缓存)的极致复用能力,使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾(Ascend)NPU,基于 GitCode Notebook 最新的Ubuntu

文章图片
#华为
极致算力释放:在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

在大模型推理技术的竞逐中,SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制,正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下,它对 KV Cache(键值缓存)的极致复用能力,使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾(Ascend)NPU,基于 GitCode Notebook 最新的Ubuntu

文章图片
#华为
团队知识库不用买服务器?Wiki.js + cpolar轻松搞定

Wiki.js 是一款功能全面的维基平台,支持 Markdown 和 HTML 编辑,自带版本控制、权限管理和全文搜索,很适合企业搭建内部知识库、学校整理教学资料,或是科研团队归档研究成果。它的优势在于界面简洁、定制性强,还能通过 Docker 快速部署,省去复杂的环境配置。使用 Wiki.js 时感觉它的权限管理特别实用,能给不同成员设置编辑、只读等权限,避免文档被误改。不过初次配置时要注意数据

文章图片
#服务器#javascript#运维
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

在本次适配过程中,我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战,我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀:适配的关键在于“版本对齐”:在异构计算领域,CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显

文章图片
#华为
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

在本次适配过程中,我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战,我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀:适配的关键在于“版本对齐”:在异构计算领域,CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显

文章图片
#华为
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

在本次适配过程中,我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战,我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀:适配的关键在于“版本对齐”:在异构计算领域,CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显

文章图片
#华为
PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

本文深入解析PyTorch Fully Sharded Data Parallel(FSDP)在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进,结合昇腾Atlas 800T A2处理器的硬件特性,系统分析。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧,为千亿参数大模型训练提供了一套完整的分布式训练

文章图片
#华为
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择