AI算力小知识个人主页

@ai_hpc_trivia

AI算力小知识

2025-10-20 20:29:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

使用vLLM多卡部署大模型测试推理性能

本文对比了3090和4090显卡在vLLM多卡推理场景下的性能表现。测试使用Qwen3-14B模型。结果显示：4090在1-16并发度下均优于3090，尤其在16并发时吞吐量提升达52.3%，耗时更稳定。4090凭借更强的核心和更大的L2缓存，在高并发场景下性能衰减更小。建议个人用户选择性价比高的3090，企业级应用则推荐性能更强的4090以获得更高的服务效率。

Ollama和vLLM是大模型部署的两种主流工具。Ollama适合个人开发和资源受限环境，提供简单易用的本地体验；vLLM则适用于高并发生产环境，具有卓越的推理性能。在RTX3090上测试Qwen3-8B模型显示：低并发时两者性能接近，但随着并发量增加，vLLM优势显著。测试表明，对性能要求高的生产环境应选择vLLM，而轻量级开发可考虑Ollama。

#人工智能

Ollama和vLLM大模型推理性能比较

#人工智能

魔改3080显卡在大模型推理场景的性能表现

RTX 3080 20G显卡是基于3080 10G魔改的卡，目前市面比较多得被用于小规模参数的大语言模型推理场景，被认为是性价比比3090还高的推理显卡。这里使用Ollama部署Qwen3模型进行推理场景的性能实测，比较3080 20G和3090 24G的差异到底多大？

#人工智能

魔改3080显卡在大模型推理场景的性能表现

#人工智能

Ollama大模型推理场景显卡性能比较

使用Ollama的快速模型部署，来实测英伟达的RTX 3090和RTX 4090这两张显卡，在大语言模型推理场景中的性能差异。选择 Qwen3的模型进行测试，考虑到3090和4090的显存都是24GB，分别选择一个FP16精度和一个Q4_K_M量化后的大模型进行测试。

#人工智能

Ollama大模型推理场景显卡性能比较

#人工智能

到底了