澪贰02 个人主页

@Zero_VPN

澪贰02

2024-10-27 10:51:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

不只是聊天！在昇腾 910B 上硬核部署 SDXL：3秒出图的魔法

在昇腾 NPU 上跑通 SDXL，绝不仅仅是一次简单的模型部署，而是一场针对国产异构算力的深度适配之旅。我们从最初的依赖冲突、转换脚本缺失，一路过关斩将，解决了 MindSpore 静态图编译的内存崩塌（OOM）和严格的类型精度（Type Mismatch）问题。最终，我们探索出了一条**“PyNative 动态图 + 在线权重加载 + 自动化补丁”的黄金路径。这条路径证明了：在面对超大参数模型时

#华为

拒绝“环境劝退”：Llama-2-7b 在昇腾 NPU 上的工程化部署与深度故障排查实录

在本次部署过程中，并非一帆风顺。以下是几个典型的“坑”及其解决方法，这也是本文最有价值的部分。通过本次在 GitCode Notebook 上的实操，我们成功实现了 Llama-2-7b 模型在昇腾 NPU 上的部署与推理。核心结论如下：环境就绪度高：使用官方提供的预置镜像（EulerOS + CANN + PyTorch），可以规避 90% 的底层驱动安装问题，让开发者专注于模型应用层。代码迁移

#华为

极致算力释放：在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

在大模型推理技术的竞逐中，SGLang 凭借其革命性的 RadixAttention 技术和高效的算子调度机制，正在成为高性能推理的新标杆。特别是在多轮对话和 Agent 智能体场景下，它对 KV Cache（键值缓存）的极致复用能力，使其在吞吐量表现上甚至超越了老牌强者 vLLM。本文将聚焦于国产算力底座——昇腾（Ascend）NPU，基于 GitCode Notebook 最新的Ubuntu

#华为

极致算力释放：在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

#华为

极致算力释放：在昇腾 NPU (CANN 8.2) 上极速部署 SGLang + Qwen2.5 实战指南

#华为

团队知识库不用买服务器？Wiki.js + cpolar轻松搞定

Wiki.js 是一款功能全面的维基平台，支持 Markdown 和 HTML 编辑，自带版本控制、权限管理和全文搜索，很适合企业搭建内部知识库、学校整理教学资料，或是科研团队归档研究成果。它的优势在于界面简洁、定制性强，还能通过 Docker 快速部署，省去复杂的环境配置。使用 Wiki.js 时感觉它的权限管理特别实用，能给不同成员设置编辑、只读等权限，避免文档被误改。不过初次配置时要注意数据

#服务器 #javascript #运维

0-Day 极速响应：基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

在本次适配过程中，我们遇到了几个典型的“水土不服”问题。这些问题在昇腾开发中非常具有代表性。通过本次实战，我们成功在 GitCode 昇腾 NPU 环境下跑通了 Qwen2.5-7B 这个“0-Day”模型。核心经验沉淀：适配的关键在于“版本对齐”：在异构计算领域，CANN 驱动、torch_npu插件、vLLM 分支版本三者必须严格对应。本次成功的关键在于选对了 CANN 8.0 的基础镜像。显

#华为

0-Day 极速响应：基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

#华为

0-Day 极速响应：基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南

#华为

PyTorch FSDP昇腾平台深度优化——千亿模型分布式训练架构与性能调优指南

本文深入解析PyTorch Fully Sharded Data Parallel（FSDP）在昇腾AI处理器上的架构设计、实现原理与性能优化策略。通过对比FSDP1与FSDP2的架构演进，结合昇腾Atlas 800T A2处理器的硬件特性，系统分析。文章包含完整的昇腾环境配置指南、FSDP2迁移实战代码、性能瓶颈诊断方法论以及昇腾平台特有的优化技巧，为千亿参数大模型训练提供了一套完整的分布式训练

#华为

共 40 条

请选择