
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文记录了在昇腾NPU上部署Llama-2-7B大模型的完整过程。作者选择昇腾910B芯片进行测试,主要基于其自主可控、生态完善和免费试用资源等优势。通过GitCode平台申请云上NPU资源,配置了包含PyTorch 2.1和CANN 8.0的开发环境。在部署过程中,作者分享了多个实用技巧,如必须显式导入torch_npu才能使用NPU功能、模型迁移的正确写法等。最终成功加载7B模型(FP16精度

每个用过云服务器的人大概都有过这样的经历:半夜睡着了,突然手机震动,是监控告警——某个进程把 CPU 跑满了。于是一骨碌爬起来,掏出电脑,连 VPN,打开终端,SSH 进服务器,top看进程,kill掉目标,再确认一遍……等这套流程走完,已经凌晨两点多,睡意全无。还有另一种场景:出门在外,手边只有手机,想查一下服务器内存还剩多少,却发现手机上的 SSH 客户端根本用不顺手。传统的服务器运维太重了,

在大模型推理领域,如何在国产算力平台(如 Atlas 800T)上榨干硬件性能,是开发者关注的核心。SGLang 作为近期备受瞩目的高性能推理框架,凭借 RadixAttention 和高效的各种算子优化,成为了提升吞吐量的利器。本文将结合实际操作日志,详解如何在昇腾环境中从零开始搭建环境、跑通模型,并使用 sglang benchmark 进行专业的性能调优。

本文记录了在昇腾NPU上部署Llama-2-7B大模型的完整过程。作者选择昇腾910B芯片进行测试,主要基于其自主可控、生态完善和免费试用资源等优势。通过GitCode平台申请云上NPU资源,配置了包含PyTorch 2.1和CANN 8.0的开发环境。在部署过程中,作者分享了多个实用技巧,如必须显式导入torch_npu才能使用NPU功能、模型迁移的正确写法等。最终成功加载7B模型(FP16精度

继上一篇Llama-2-7B测试后,本文升级到Llama-3.1-8B进行性能对比。实测数据:吞吐量从16.6提升到17.32 tokens/s(+4.3%),显存从13.61GB增至16.06GB(+18%)。同时尝试了更专业的huggingface-cli下载方式(vs Python代码),支持断点续传更稳定。详细记录5个踩坑过程:gated模型访问、线程资源限制、NPU算子兼容性等。继续使用

从零搭建鲲鹏 HPC 环境:从朴素矩阵乘法到高性能实现

鲲鹏平台 HPC 高性能计算应用实践:矩阵乘法并行优化从入门到精通

本文介绍了如何在Ubuntu系统下使用Portainer CE可视化界面部署NextCloud私有云盘,并结合cpolar内网穿透实现公网远程访问。首先通过Portainer拉取NextCloud镜像并创建容器,配置数据卷和端口映射(9001:80)。接着安装cpolar工具创建安全隧道,生成随机公网地址实现远程访问。最后通过cpolar的二级子域名功能将动态地址转为固定域名,解决24小时地址变化

本文记录了在 CentOS 7.6 / 4核 / 8GB 内存的 Docker 单节点环境中,对 KWDB 3.1.0 进行的一次读写性能测试

本文将深入浅出地介绍Podman的搭建与基础使用方法,目标是帮助读者理解Podman作为一种容器管理工具与Docker的不同之处,并教会读者如何从安装到运行自己的容器应用。全文将详细讲解Podman的安装过程,配置步骤,以及如何通过命令行管理和运行容器。此外,文章还将探讨Podman的一些高级特性,如构建容器镜像、网络配置和资源限制,以使读者能够充分利用Podman在开发和生产环境中的潜力。








