vLLM启动项目并输出到日志

CUDA_VISIBLE_DEVICES=1 nohup vllm serve /llm_models/Qwen3-32B \
        --served-model-name Qwen3-32B \
        --gpu_memory_utilization 0.95 \
        --tensor-parallel-size 1 \
        --max-model-len 32768 \
        --port 7562 \
        --enable-reasoning --reasoning-parser deepseek_r1 \
        --device cuda \
        &> /llm_models/Qwen3-32B/Qwen3-32B.log &

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐