logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

利用 LLaMA-Factory 快速微调专属大模型教程

本文详解利用 LLaMA-Factory 快速微调专属大模型的全流程。涵盖数据集准备、LoRA 高效微调配置及训练监控,帮助开发者低成本定制垂直领域模型,将通用智能转化为解决实际业务问题的专属能力。

#LLaMA-Factory#LoRA
LLaMA-Factory 大模型微调实战指南

很多开发者第一次接触大模型微调时,往往被复杂的环境配置和晦涩的命令行劝退。其实,只要理清了从数据准备到模型导出的完整链路,整个过程并没有想象中那么神秘。特别是在显存资源有限的情况下,如何利用 LoRA 等技术高效地完成全量或部分参数的微调,是许多个人开发者和小型团队最关心的实际问题。这篇文章将带你从零开始,一步步搭建本地训练环境,处理专属数据集,并实战演示如何通过图形界面和命令行两种方式启动训练。

基于 LLaMA-Factory 微调模型在 Instinct GPU 上的部署

本文详解基于 LLaMA-Factory 微调模型在 Instinct GPU 上的部署全流程。涵盖 ROCm 环境配置、权重格式转换及 vLLM 显存调优,解决量化与并发痛点,助力开发者高效落地 AMD 生态大模型推理服务。

#Instinct GPU#LLaMA-Factory#vLLM
利用 Ollama 与 LM Studio 在 AMD 平台上简化模型部署

本文详解如何在 AMD 平台上利用 Ollama 与 LM Studio 简化大语言模型部署。通过一键安装与可视化操作,屏蔽 ROCm 复杂配置,快速运行 LLaMA、Qwen 等模型。方案兼容 OpenAI API,适合本地调试与原型开发,平衡易用性与性能。

编写 Python 脚本快速诊断 AMD GPU 健康状态

本文详解如何编写 Python 脚本快速诊断 AMD GPU 健康状态。通过 PyTorch 接口自动化检查设备可见性、可用显存及 BF16 支持,解决大模型部署中的环境隐患。该方案适用于 CI/CD 与集群运维,有效提升 AMD GPU 推理服务的稳定性与效率。

Windows 下编译 llama.cpp 开启 CUDA 加速详细步骤

本文详解 Windows 下编译 llama.cpp 开启 CUDA 加速的步骤。通过最小化安装 CUDA 运行时、配置 Visual Studio 2022 及关键 CMake 参数,解决编译陷阱并优化 GPU 推理性能,帮助开发者高效部署大模型本地运行环境。

基于 Github 开源项目构建本地私有化大模型知识库

本文详解基于 Github 开源项目构建本地私有化大模型知识库的全流程。通过 LLaMA-Factory 微调、llama.cpp 量化及 Ollama 服务化,打造零依赖的本地私有知识库方案,确保数据不出域且支持多硬件高效推理,实现安全可控的企业级 AI 应用。

构建基于 AMD 显卡的高性价比大模型推理集群

本文详解构建基于 AMD 显卡的高性价比大模型推理集群方案。通过优化单卡与多卡拓扑选型,结合 Kubernetes 与 Slurm 的 ROCm 适配策略,显著降低每 Token 成本。该方案凭借大显存优势与开源生态,成为私有化部署及边缘计算场景下的大模型推理务实之选。

AMD GPU 显存碎片化问题的成因与应对策略

本文深入剖析 AMD GPU 在 vLLM 推理中因显存碎片化导致的 OOM 问题。针对 ROCm 驱动特性,提出调整 block-size、预留显存余量及定期重启等策略,有效解决内存分配困境,保障大模型服务长期稳定运行。

#vLLM
高并发场景下 vLLM 推理延迟的诊断与优化

本文深入解析高并发场景下 vLLM 推理延迟的诊断与优化策略。通过 rocprof 等工具定位内核瓶颈,优化 Host-to-Device 数据传输,并治理网络与日志干扰,全面解决 AMD ROCm 环境下的性能抖动问题,显著提升大模型服务效率。

#vLLM
    共 121 条
  • 1
  • 2
  • 3
  • 13
  • 请选择