logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

面向资源受限边缘设备的MoE架构大模型部署优化研究——以DeepSeek R1 7B为例

说得直接一点:在4核8G这种“寒酸”配置上跑7B模型,你不是在做实时AI聊天,而是在把大模型当成一个离线智能处理引擎。如果你一定要跑4096上下文,那请务必开启KV cache 8-bit量化:在llama.cpp中加--k-quant --v-quant,实测内存会再降400MB,但生成速度也会掉10%~15%。如果你手头有一台老旧的迷你主机、云上的廉价VPS(4核CPU + 8GB内存),想在

#人工智能
面向资源受限边缘设备的MoE架构大模型部署优化研究——以DeepSeek R1 7B为例

说得直接一点:在4核8G这种“寒酸”配置上跑7B模型,你不是在做实时AI聊天,而是在把大模型当成一个离线智能处理引擎。如果你一定要跑4096上下文,那请务必开启KV cache 8-bit量化:在llama.cpp中加--k-quant --v-quant,实测内存会再降400MB,但生成速度也会掉10%~15%。如果你手头有一台老旧的迷你主机、云上的廉价VPS(4核CPU + 8GB内存),想在

#人工智能
《35个免费AI API实测合集(2026最新)——我搭了个站每天更新》

Gemini、DeepSeek、Grok、Cerebras、硅基流动、Pollinations AI、Mistral、通义千问、Llama3、智谱AI。但市面上的API资源杂乱无章、失效速度极快,网上很多合集都是几年前的过期内容,踩坑无数之后,我决定自己手动收集、实测整理全网免费AI接口。整理免费AI API一直是很多开发者的刚需,不管是个人练手、搭建副业项目,还是给自己的网站接入AI能力,免费接

#人工智能
到底了