
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 本文详细介绍了在Ubuntu 22.04上部署Kubernetes集群并运行vLLM推理框架的完整流程。vLLM凭借PagedAttention和动态批处理技术显著提升GPU推理效率,支持多GPU并行及主流大模型。部署过程涵盖环境准备(NVIDIA驱动、容器运行时)、K8s集群搭建、vLLM容器化部署及优化(GPU调度、模型持久化)。通过K8s的Device Plugin实现GPU资源管理
摘要: 本文详细介绍了在Ubuntu 22.04上部署Kubernetes集群并运行vLLM推理框架的完整流程。vLLM凭借PagedAttention和动态批处理技术显著提升GPU推理效率,支持多GPU并行及主流大模型。部署过程涵盖环境准备(NVIDIA驱动、容器运行时)、K8s集群搭建、vLLM容器化部署及优化(GPU调度、模型持久化)。通过K8s的Device Plugin实现GPU资源管理
本文介绍了一个完全本地化的RAG系统构建方案,基于LangChain框架和A40 48G显卡资源实现。系统采用的技术栈包括Ubuntu 22.04、Conda环境管理、SGLang推理框架、Chroma向量数据库等。详细阐述了环境配置步骤(包括系统更新、Conda安装、Python环境创建)和核心组件安装(LangChain、SGLang、PyTorch等)。文章提供了文档处理模块和向量存储模块的
本文介绍了基于维基百科的知识问答系统架构及实现方案。系统采用模块化设计,包含知识获取(维基百科实时抓取)、文本处理(LangChain)、向量存储(FAISS)、本地推理(vLLM引擎)和Web界面(Streamlit)五大组件。详细说明了Ubuntu 22.04环境下的配置流程,包括Anaconda安装、CUDA 12.4环境配置以及Python依赖包管理。核心代码实现了维基百科内容检索、文本分
作者:吴业亮博客:wuyeliang.blog.csdn.net2. 创建并激活Conda环境3. 安装依赖(匹配V100 CUDA 11.8)二、项目结构三、完整代码实现1. requirements.txt2. config.py(核心配置,需替换模型路径)3. model_wrapper.py(VLLM模型封装)4. langgraph_agent.py(LangGraph评估流程)5. w
作者:吴业亮博客:wuyeliang.blog.csdn.net2. 创建并激活Conda环境3. 安装依赖(匹配V100 CUDA 11.8)二、项目结构三、完整代码实现1. requirements.txt2. config.py(核心配置,需替换模型路径)3. model_wrapper.py(VLLM模型封装)4. langgraph_agent.py(LangGraph评估流程)5. w
作者:吴业亮博客:wuyeliang.blog.csdn.net2. 创建并激活Conda环境3. 安装依赖(匹配V100 CUDA 11.8)二、项目结构三、完整代码实现1. requirements.txt2. config.py(核心配置,需替换模型路径)3. model_wrapper.py(VLLM模型封装)4. langgraph_agent.py(LangGraph评估流程)5. w
本文从原理到实践,覆盖了Transformers微调的核心逻辑、Ubuntu22.04+Conda环境搭建、基础全微调、进阶LoRA微调,以及常见问题解决方案。微调的本质是迁移学习,根据显存选择全微调/冻结微调/LoRA;Hugging Face生态(Transformers/Datasets/Trainer)大幅简化微调流程;关键参数(学习率、批次大小、文本长度)需根据模型/显存调整。微调生成类
快速上手:优先选择 DDP,配置简单、稳定性高;大模型训练:优先选择 DeepSpeed(ZeRO-2/3)或 FSDP,显存效率更高;多机训练:DDP/FSDP 配置更简洁,DeepSpeed 需确保多机通信正常;所有场景建议使用 LoRA 微调(而非全量微调),大幅降低显存占用。
快速上手:优先选择 DDP,配置简单、稳定性高;大模型训练:优先选择 DeepSpeed(ZeRO-2/3)或 FSDP,显存效率更高;多机训练:DDP/FSDP 配置更简洁,DeepSpeed 需确保多机通信正常;所有场景建议使用 LoRA 微调(而非全量微调),大幅降低显存占用。







