xianrenge666 个人主页

@xianrenge666

xianrenge666

2023-10-23 20:25:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

摘要：2026年智能体技术迎来爆发，OpenClaw等新型智能体引发热潮。作者使用V100 32GB显卡部署阿里开源的Qwen3.6-27B量化模型进行测试，在12万token上下文窗口下，生成速度约30tokens/s。测试显示模型能处理常识推理（如9.2和9.11比较）和简单智能体任务（天气查询、文章总结），但在编程任务（开发计算器网站）和三字城市识别等复杂场景表现欠佳。建议该配置适合非紧急任

#python

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

#python

32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

本文对比评测了多款30B参数级别的开源大模型在V100显卡上的运行性能。测试对象包括Qwen3.6、Gemma和GLM等热门模型的不同量化版本，重点关注预填充(prefill)和生成(decoding)速度。测试结果显示：1) MOE架构模型比稠密模型快3-4倍；2) 预填充速度约为生成速度的10倍；3) 低精度量化模型速度更快；4) 智能量化方法IQ4_XS略慢于传统Q4_K_M；5) GLM-

#python

llama.cpp上新了MTP功能！在32GB老显卡上Qwen3.6系列模型能加速多少？

摘要：本文测试了llama.cpp最新支持的多标记预测(MTP)技术在Qwen3.6系列模型上的性能表现。测试使用V100显卡，对比了Qwen3.6-27B和35B模型在不同上下文长度下的预填充和生成速度。结果显示：1) MTP能提升20-30%的生成速度，但预填充速度下降约30%；2) 预测token数(1/2/4)增加会降低接受率，削弱加速效果；3) 长文本处理时35B模型可能出现负加速。建议

#python

顶级游戏显卡RTX 4090横评多款30B参数级别本地大模型之运行速度篇

本文测试了RTX 4090显卡在本地大模型推理中的性能表现，重点对比了llama.cpp和vLLM两种推理引擎在Qwen3.6和Gemma系列30B参数模型上的表现。测试采用4bit量化模型，通过6种不同长度上下文生成200个token来评估预填充和生成速度。结果显示：4090预填充速度较V100提升8倍以上；vLLM预填充速度普遍优于llama.cpp；MTP技术可使Qwen3.6-27B生成速

#人工智能 #python

llama.cpp上新了MTP功能！在32GB老显卡上Qwen3.6系列模型能加速多少？

#python

32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

#python

32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

#python

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

#python

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

#python

到底了