LM Studio使用MTP的qwen3.6-27B-以7840hs的780M为例
本文介绍了如何在LM Studio中启用MTP功能来提升大语言模型的运行效率。作者以7840hs的780M核显为例,展示了更新软件版本、配置开发者模式、选择支持MTP的模型等关键步骤。实测结果显示,启用MTP后,思考时间从1分49秒缩短至1分32秒(提升15.6%),回答生成速度从3.5t/s提升到6.71t/s(提升91.7%)。文章还通过"虎鲸是否是鱼"的问答示例,展示了模型在启用MTP后的性
LM Studio使用MTP的qwen3.6-27B-以7840hs的780M为例
前言
体验了GPU卸载数拉高的好处:https://lizhiyong.blog.csdn.net/article/details/161386515
还有个更加惊喜的功能,那就是最近llama.cpp的MTP新特性。
更新版本
老版本肯定是不行的,需要更新LM Studio到新版本,7840hs的780M是基于Vulkan运行的,还需要把llama.cpp的依赖版本更新:

实测0.4.14(Build 4)的LM Studio和2.16.0的llama.cpp可运行MTP模型。
启用MTP配置

设置中的开发者模式必开!!!

模型要下载一个有MTP标签的,不然没有MTP开关配置!!!选使用人数更多的unsloth的版本就行。

带MTP的模型就可以启用开关,当然GPU卸载还是要拉满!!!96GB大内存跑30B级别的小模型不存在OOM。重启后配置会生效。
Chat
虎鲸是鱼嘛?

灰常好,GPU负载很高,CPU负载很低,且内存占用>30GB,显然核显开始发力了!!!
Think

思考过程只用了1min32s。
Here's a thinking process:
Analyze User Input:
Question: 虎鲸是鱼嘛? (Is an orca/killer whale a fish?)
Key Entity: 虎鲸 (Orca/Killer Whale)
Core Question: Is it a fish? (Classification question)
Identify Key Biological Facts:
Orca (Orcinus orca) is a marine mammal.
It belongs to the family Delphinidae (oceanic dolphins).
Mammals vs. Fish:
Mammals breathe air with lungs, give birth to live young, nurse them with milk, are warm-blooded.
Fish breathe water with gills, typically lay eggs, are cold-blooded (mostly), have scales/fins.
Therefore, orcas are definitely NOT fish.
Formulate Response (Mental Refinement in Chinese):
Direct answer: 不是,虎鲸不是鱼。
Explain classification: 虎鲸是哺乳动物,属于鲸目海豚科。
Key differences from fish:
用肺呼吸(需要浮出水面换气)
胎生、哺乳
恒温动物
没有鳃和鳞片
Add interesting/contextual info (optional but helpful): 虽然生活在海里,外形像鱼,但生物学分类上属于哺乳纲。常被误认为是鱼是因为“鲸”字带“鱼”旁(汉字构字特点),但实际与鱼类完全不同。
Keep it concise and accurate.
Draft Response (Chinese): 不是,虎鲸不是鱼。
虎鲸是哺乳动物,属于鲸目海豚科。虽然它生活在海洋中、外形流线型像鱼,但和鱼类有本质区别:
🐋 用肺呼吸(必须定期浮出水面换气)
👶 胎生并用乳汁哺育幼崽
🌡️ 恒温动物(体温稳定)
❌ 没有鳃、鳞片或鱼鳍结构
中文里“鲸”字带“鱼”旁是汉字造字习惯,并不代表它是鱼类。生物学上,虎鲸和海豚、蓝鲸一样,都属于海洋哺乳动物。
Self-Correction/Verification:
Accuracy: Correct. Orcas are cetaceans (mammals), not fish.
Clarity: Clear distinction between mammals and fish.
Language: Natural Chinese, appropriate tone.
Structure: Direct answer first, then bullet points for key differences, then etymology note.
No overcomplication, stays focused on the question.
All facts verified against standard biological knowledge.
Ready. Output matches the draft.✅
Token生成速度

生成速度达到了6.71t/s。
对比情况
| Mode | 无MTP | 启用MTP | 提升比例 |
|---|---|---|---|
| Think | 1min49s | 1min32s | 15.6% |
| Answer | 3.5t/s | 6.71t/s | 91.71% |
虽然Think阶段提升不是很大,但Answer阶段接近Double,在GPU卸载最大的情况下,7840hs的780M核显已经枯木逢春!!!本地私有化部署及内网开发从勉强能跑,到基本能用的伟大跃迁。
可以暂时不用急着换AI Max 395和128GB大内存了。
转载请注明出处:https://lizhiyong.blog.csdn.net/article/details/161387982

更多推荐



所有评论(0)