logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

本文对比评测了多款30B参数级别的开源大模型在V100显卡上的运行性能。测试对象包括Qwen3.6、Gemma和GLM等热门模型的不同量化版本,重点关注预填充(prefill)和生成(decoding)速度。测试结果显示:1) MOE架构模型比稠密模型快3-4倍;2) 预填充速度约为生成速度的10倍;3) 低精度量化模型速度更快;4) 智能量化方法IQ4_XS略慢于传统Q4_K_M;5) GLM-

文章图片
#python
llama.cpp上新了MTP功能!在32GB老显卡上Qwen3.6系列模型能加速多少?

摘要:本文测试了llama.cpp最新支持的多标记预测(MTP)技术在Qwen3.6系列模型上的性能表现。测试使用V100显卡,对比了Qwen3.6-27B和35B模型在不同上下文长度下的预填充和生成速度。结果显示:1) MTP能提升20-30%的生成速度,但预填充速度下降约30%;2) 预测token数(1/2/4)增加会降低接受率,削弱加速效果;3) 长文本处理时35B模型可能出现负加速。建议

文章图片
#python
顶级游戏显卡RTX 4090横评多款30B参数级别本地大模型之运行速度篇

本文测试了RTX 4090显卡在本地大模型推理中的性能表现,重点对比了llama.cpp和vLLM两种推理引擎在Qwen3.6和Gemma系列30B参数模型上的表现。测试采用4bit量化模型,通过6种不同长度上下文生成200个token来评估预填充和生成速度。结果显示:4090预填充速度较V100提升8倍以上;vLLM预填充速度普遍优于llama.cpp;MTP技术可使Qwen3.6-27B生成速

文章图片
#人工智能#python
llama.cpp上新了MTP功能!在32GB老显卡上Qwen3.6系列模型能加速多少?

摘要:本文测试了llama.cpp最新支持的多标记预测(MTP)技术在Qwen3.6系列模型上的性能表现。测试使用V100显卡,对比了Qwen3.6-27B和35B模型在不同上下文长度下的预填充和生成速度。结果显示:1) MTP能提升20-30%的生成速度,但预填充速度下降约30%;2) 预测token数(1/2/4)增加会降低接受率,削弱加速效果;3) 长文本处理时35B模型可能出现负加速。建议

文章图片
#python
32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

本文对比评测了多款30B参数级别的开源大模型在V100显卡上的运行性能。测试对象包括Qwen3.6、Gemma和GLM等热门模型的不同量化版本,重点关注预填充(prefill)和生成(decoding)速度。测试结果显示:1) MOE架构模型比稠密模型快3-4倍;2) 预填充速度约为生成速度的10倍;3) 低精度量化模型速度更快;4) 智能量化方法IQ4_XS略慢于传统Q4_K_M;5) GLM-

文章图片
#python
32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

本文对比评测了多款30B参数级别的开源大模型在V100显卡上的运行性能。测试对象包括Qwen3.6、Gemma和GLM等热门模型的不同量化版本,重点关注预填充(prefill)和生成(decoding)速度。测试结果显示:1) MOE架构模型比稠密模型快3-4倍;2) 预填充速度约为生成速度的10倍;3) 低精度量化模型速度更快;4) 智能量化方法IQ4_XS略慢于传统Q4_K_M;5) GLM-

文章图片
#python
32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

摘要:2026年智能体技术迎来爆发,OpenClaw等新型智能体引发热潮。作者使用V100 32GB显卡部署阿里开源的Qwen3.6-27B量化模型进行测试,在12万token上下文窗口下,生成速度约30tokens/s。测试显示模型能处理常识推理(如9.2和9.11比较)和简单智能体任务(天气查询、文章总结),但在编程任务(开发计算器网站)和三字城市识别等复杂场景表现欠佳。建议该配置适合非紧急任

文章图片
#python
32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

摘要:2026年智能体技术迎来爆发,OpenClaw等新型智能体引发热潮。作者使用V100 32GB显卡部署阿里开源的Qwen3.6-27B量化模型进行测试,在12万token上下文窗口下,生成速度约30tokens/s。测试显示模型能处理常识推理(如9.2和9.11比较)和简单智能体任务(天气查询、文章总结),但在编程任务(开发计算器网站)和三字城市识别等复杂场景表现欠佳。建议该配置适合非紧急任

文章图片
#python
到底了