SGLang安装指南：从环境配置到第一个Hello World

褚铃尤Kerwin

1429人浏览 · 2025-09-05 10:09:38

褚铃尤Kerwin · 2025-09-05 10:09:38 发布

SGLang安装指南：从环境配置到第一个Hello World

【免费下载链接】sglang SGLang is a structured generation language designed for large language models (LLMs). It makes your interaction with models faster and more controllable. 项目地址: https://gitcode.com/GitHub_Trending/sg/sglang

概述

SGLang（Structured Generation Language）是一个专为大语言模型（LLM）设计的高性能服务框架。它通过协同设计后端运行时和前端语言，使您与模型的交互更加快速和可控。本文将为您提供从零开始的完整安装指南，帮助您快速上手SGLang并运行第一个"Hello World"示例。

环境要求

在开始安装之前，请确保您的系统满足以下基本要求：

组件	最低要求	推荐配置
操作系统	Ubuntu 18.04+	Ubuntu 20.04+
Python	3.8+	3.10+
CUDA	11.7+	12.0+
GPU内存	8GB	16GB+
系统内存	16GB	32GB+

安装方法

方法一：使用pip或uv安装（推荐）

# 更新pip
pip install --upgrade pip

# 安装uv（更快的包管理器）
pip install uv

# 安装SGLang完整版
uv pip install "sglang[all]>=0.5.2rc1"

方法二：从源码安装

# 克隆最新发布分支
git clone -b v0.5.2rc1 https://gitcode.com/GitHub_Trending/sg/sglang.git
cd sglang

# 安装Python包
pip install --upgrade pip
pip install -e "python[all]"

方法三：Docker安装

# 拉取官方Docker镜像
docker pull lmsysorg/sglang:latest

# 运行容器（替换<your_hf_token>为您的HuggingFace令牌）
docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<your_hf_token>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000

常见问题解决

CUDA环境变量问题

如果遇到OSError: CUDA_HOME environment variable is not set错误：

# 设置CUDA_HOME环境变量
export CUDA_HOME=/usr/local/cuda-12.2  # 根据您的CUDA版本调整

# 或者先安装FlashInfer
pip install flashinfer-python

FlashInfer相关问题

如果遇到FlashInfer相关的问题：

# 重新安装FlashInfer
pip3 install --upgrade flashinfer-python --force-reinstall --no-deps

# 清除缓存
rm -rf ~/.cache/flashinfer

# 或者切换到其他内核
python3 -m sglang.launch_server --attention-backend triton --sampling-backend pytorch ...

第一个Hello World示例

步骤1：启动SGLang服务器

# 使用小模型快速启动（Qwen2.5-0.5B）
python3 -m sglang.launch_server \
    --model-path qwen/qwen2.5-0.5b-instruct \
    --host 0.0.0.0 \
    --port 30000 \
    --log-level warning

步骤2：使用cURL测试

curl -s http://localhost:30000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen/qwen2.5-0.5b-instruct", 
    "messages": [
      {"role": "user", "content": "Say hello world in a creative way"}
    ]
  }'

步骤3：使用Python客户端

import requests
import json

# 发送请求
url = "http://localhost:30000/v1/chat/completions"
data = {
    "model": "qwen/qwen2.5-0.5b-instruct",
    "messages": [
        {"role": "user", "content": "Say hello world in a creative way"}
    ]
}

response = requests.post(url, json=data)
result = response.json()

print("AI回复:", result['choices'][0]['message']['content'])

步骤4：使用OpenAI兼容客户端

import openai

# 配置客户端
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1",
    api_key="None"  # SGLang不需要API密钥
)

# 发送请求
response = client.chat.completions.create(
    model="qwen/qwen2.5-0.5b-instruct",
    messages=[
        {"role": "user", "content": "Say hello world in a creative way"}
    ],
    temperature=0.7,
    max_tokens=100
)

print("AI回复:", response.choices[0].message.content)

进阶示例：流式响应

import openai

client = openai.Client(base_url="http://127.0.0.1:30000/v1", api_key="None")

# 流式响应
response = client.chat.completions.create(
    model="qwen/qwen2.5-0.5b-instruct",
    messages=[
        {"role": "user", "content": "Write a short poem about programming"}
    ],
    stream=True
)

print("流式响应:")
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

使用原生API

import requests

# 使用原生/generate端点
response = requests.post(
    "http://localhost:30000/generate",
    json={
        "text": "The meaning of life is",
        "sampling_params": {
            "temperature": 0.7,
            "max_new_tokens": 50,
        }
    }
)

print("原生API响应:", response.json())

环境验证

检查服务器状态

# 健康检查
curl http://localhost:30000/health

# 获取模型信息
curl http://localhost:30000/get_model_info

# 获取服务器信息
curl http://localhost:30000/get_server_info

Python验证脚本

import requests

def check_server_health():
    try:
        # 健康检查
        health_response = requests.get("http://localhost:30000/health")
        print(f"健康状态: {health_response.text}")
        
        # 模型信息
        model_info = requests.get("http://localhost:30000/get_model_info").json()
        print(f"模型路径: {model_info['model_path']}")
        print(f"是否为生成模型: {model_info['is_generation']}")
        
        return True
    except Exception as e:
        print(f"服务器检查失败: {e}")
        return False

if check_server_health():
    print("✅ SGLang服务器运行正常！")
else:
    print("❌ SGLang服务器存在问题")

性能优化建议

内存配置

# 增加共享内存大小（Docker）
--shm-size 32g

# 调整GPU内存分配
--gpus all --gpu-memory-utilization 0.9

内核后端选择

# 使用Triton后端（兼容性更好）
python3 -m sglang.launch_server \
    --model-path qwen/qwen2.5-0.5b-instruct \
    --attention-backend triton \
    --sampling-backend pytorch

故障排除指南

常见错误及解决方案

mermaid

日志查看

# 查看详细日志
python3 -m sglang.launch_server --model-path ... --log-level debug

# 检查GPU状态
nvidia-smi

# 检查端口占用
netstat -tlnp | grep 30000

总结

通过本指南，您已经成功完成了：

✅ SGLang环境安装和配置
✅ 服务器启动和健康检查
✅ 第一个"Hello World"示例运行
✅ 多种客户端使用方法掌握
✅ 基本故障排除能力

SGLang作为一个高性能的LLM服务框架，为您提供了灵活的前端语言和高效的后端运行时。接下来您可以探索更多高级功能，如结构化输出、多模态输入、并行处理等。

记住，成功的安装只是开始，真正的价值在于如何利用SGLang构建强大的AI应用！

加入AMD AI开发者计划！

免费领 200 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

实战教程：如何在 GitHub Copilot CLI 中配置与调用自定义智能体

AMD开发者中国社区

LLaMA-Factory 多卡分布式训练在 AMD 集群上的实践

本文详解 LLaMA-Factory 在 AMD 集群上的多卡分布式训练实践。通过配置 RCCL 通信库、优化环境变量及解决死锁问题，实现高效协同。掌握关键参数调优与权重同步验证，助开发者突破单卡瓶颈，大幅提升大模型微调效率。

AMD开发者中国社区

vLLM推理引擎从入门到精通

vLLM框架通过PagedAttention技术革新了LLM推理的内存管理，将KV缓存分块存储并支持动态共享，使内存利用率提升至80%以上。其核心架构包含调度器、块管理器、工作引擎和内存池四大组件，采用动态批处理消除请求阻塞，实现高吞吐与低延迟的统一。

AMD开发者中国社区

所有评论(0)

查看更多评论

褚铃尤Kerwin

@gitblog_00383

已为社区贡献1条内容

SGLang安装指南：从环境配置到第一个Hello World

褚铃尤Kerwin

SGLang安装指南：从环境配置到第一个Hello World

概述

环境要求

安装方法

方法一：使用pip或uv安装（推荐）

方法二：从源码安装

方法三：Docker安装

常见问题解决

CUDA环境变量问题

FlashInfer相关问题

第一个Hello World示例

步骤1：启动SGLang服务器

步骤2：使用cURL测试

步骤3：使用Python客户端

步骤4：使用OpenAI兼容客户端

进阶示例：流式响应

使用原生API

环境验证

检查服务器状态

Python验证脚本

性能优化建议

内存配置

内核后端选择

故障排除指南

常见错误及解决方案

日志查看

总结

所有评论(0)

温馨提示：您尚未绑定手机号

褚铃尤Kerwin