
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
ms-swift(ModelScope Swift)是阿里云ModelScope联合微软推出的大模型开发工具包,核心定位是低代码、高效、通用原生支持多模态模型(视觉-语言为主),兼容Qwen-VL、LLaVA、MiniCPM-V、BLIP-2等主流多模态模型;内置LoRA/QLoRA/全量微调等策略,针对多模态模型优化显存占用;统一的配置化开发模式,通过YAML文件管理所有训练参数,无需大量代码开
ms-swift(ModelScope Swift)是阿里云ModelScope联合微软推出的大模型开发工具包,核心定位是低代码、高效、通用原生支持多模态模型(视觉-语言为主),兼容Qwen-VL、LLaVA、MiniCPM-V、BLIP-2等主流多模态模型;内置LoRA/QLoRA/全量微调等策略,针对多模态模型优化显存占用;统一的配置化开发模式,通过YAML文件管理所有训练参数,无需大量代码开
LLaMA Factory为量化提供了统一的接口,Ubuntu 22.04环境下可快速实现9种量化方法的落地。快速部署选PTQ/bitsandbytes;精度优先选QAT/AWQ/GPTQ;极致压缩选HQQ;推理速度优先选EETQ;大模型选AQLM;任务适配选OFTQ。量化的核心是平衡“精度、速度、显存”,建议根据实际场景(显存限制、任务精度要求、推理速度需求)选择合适的方法。
LLaMA Factory为量化提供了统一的接口,Ubuntu 22.04环境下可快速实现9种量化方法的落地。快速部署选PTQ/bitsandbytes;精度优先选QAT/AWQ/GPTQ;极致压缩选HQQ;推理速度优先选EETQ;大模型选AQLM;任务适配选OFTQ。量化的核心是平衡“精度、速度、显存”,建议根据实际场景(显存限制、任务精度要求、推理速度需求)选择合适的方法。
阶段核心目标适用场景显存要求通用语言规律学习从头/增量预训练≥16G领域知识适配垂直领域(医疗/法律)≥8GSFT指令-回复映射学习基础功能对齐≥8GRLHF人类偏好对齐高要求的生成质量≥16GDPO简化版偏好对齐快速对齐、低算力场景≥8GKTO偏好+知识对齐事实性要求高的场景≥8G建议优先使用 SFT + DPO 组合(低成本、高效果),垂直领域场景先做 Post-training 再做 SFT
摘要: 本文详细介绍了在Ubuntu 22.04上部署Kubernetes集群并运行vLLM推理框架的完整流程。vLLM凭借PagedAttention和动态批处理技术显著提升GPU推理效率,支持多GPU并行及主流大模型。部署过程涵盖环境准备(NVIDIA驱动、容器运行时)、K8s集群搭建、vLLM容器化部署及优化(GPU调度、模型持久化)。通过K8s的Device Plugin实现GPU资源管理
摘要: 本文详细介绍了在Ubuntu 22.04上部署Kubernetes集群并运行vLLM推理框架的完整流程。vLLM凭借PagedAttention和动态批处理技术显著提升GPU推理效率,支持多GPU并行及主流大模型。部署过程涵盖环境准备(NVIDIA驱动、容器运行时)、K8s集群搭建、vLLM容器化部署及优化(GPU调度、模型持久化)。通过K8s的Device Plugin实现GPU资源管理
本文介绍了一个完全本地化的RAG系统构建方案,基于LangChain框架和A40 48G显卡资源实现。系统采用的技术栈包括Ubuntu 22.04、Conda环境管理、SGLang推理框架、Chroma向量数据库等。详细阐述了环境配置步骤(包括系统更新、Conda安装、Python环境创建)和核心组件安装(LangChain、SGLang、PyTorch等)。文章提供了文档处理模块和向量存储模块的
本文介绍了基于维基百科的知识问答系统架构及实现方案。系统采用模块化设计,包含知识获取(维基百科实时抓取)、文本处理(LangChain)、向量存储(FAISS)、本地推理(vLLM引擎)和Web界面(Streamlit)五大组件。详细说明了Ubuntu 22.04环境下的配置流程,包括Anaconda安装、CUDA 12.4环境配置以及Python依赖包管理。核心代码实现了维基百科内容检索、文本分
作者:吴业亮博客:wuyeliang.blog.csdn.net2. 创建并激活Conda环境3. 安装依赖(匹配V100 CUDA 11.8)二、项目结构三、完整代码实现1. requirements.txt2. config.py(核心配置,需替换模型路径)3. model_wrapper.py(VLLM模型封装)4. langgraph_agent.py(LangGraph评估流程)5. w







