m0_58062332 个人主页

@m0_58062332

m0_58062332

2025-01-27 21:50:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

llama.cpp大模型单机与分布式部署与性能调优实验

本文介绍了llama.cpp在单机和分布式环境下的部署流程及性能测试方法。单机部署基于MacOS系统，通过homebrew安装后可直接运行，建议选择GGUF格式模型。分布式部署需要重新编译llama.cpp并启用RPC功能，主机和从机需分别配置。性能测试部分列出五项关键指标，包括首Token延迟、输出速度、显存占用等，并提供了官方测试工具和自定义Python脚本两种评估方法，脚本可测量运行时的内存

#分布式 #语言模型

到底了