weixin_45495161 个人主页

@weixin_45495161

weixin_45495161

2023-03-13 16:29:41 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2026年4月AI军备竞赛全景：DeepSeek V4 vs GPT-5.5 vs Gemini vs Claude

坦白讲，这是我从业以来见过的AI行业最疯狂的一个月。4月份之前，大家还在讨论"GPT-4还能打多久"。4月份之后，格局完全变了。开源vs闭源、价格vs性能、通用vs垂直，每一个维度都在激烈博弈。我个人的建议是：不要只盯着一个模型用。根据场景选工具，而不是用工具套场景。写代码用Claude 4，做知识库用DeepSeek V4，长文档分析用Gemini，Agent任务用GPT-5.5。当然，如果你预

#人工智能

DeepSeek V4 开源 Apache 2.0 之后，闭源模型还香吗？

第一，生态整合。GPT-5.5 跟 OpenAI 的 API、插件、Function Calling 深度绑定。如果你已经重度依赖 OpenAI 生态，迁移成本其实不小。第二，开箱即用。不用管部署、优化、运维。调用 API 就行，对中小团队来说，节省的运维时间也是成本。第三，某些垂直场景更强。在我实测中，GPT-5.5 在代码生成（尤其是复杂算法）、创意写作、多语言翻译等场景确实略胜一筹。差距不大

#开源 #apache

QLoRA实战：没有A100，我用消费级显卡微调了70B模型

QLoRA 这个方案，说实话不是银弹。它慢、它有精度损失、它对超参敏感。但它解决了一个真实的问题——让买不起 A100 的团队也能做大模型微调。如果你手头也有一张消费级显卡，想试试微调但怕跑不动，直接用 QLoRA 就行。先用一张卡跑起来，效果不行再想办法上多卡。先把事情做出来，再考虑做完美。这个道理放哪都适用。

#深度学习 #人工智能

大模型部署到底要花多少钱？我把自己一个真实项目的完整账单晒出来了

模型部署的成本是可预见的，也是可控的。如果只是做实验跑demo，一张消费级显卡就够了，几千块钱的事。如果是线上服务，月活不高的场景，一个月一两万也能搞定。真正烧钱的是那些日活几十万、又用大模型的场景——那种情况确实花钱如流水。别先买卡。先租三个月的云GPU或者算力租赁，跑一段时间，拿到真实数据后再决定要不要买硬件。这样可以避免最惨的情况——花了几十万买卡，发现业务没起来，卡在机房吃灰。这是从业者的

#GPU

大模型推理太慢？我把KV Cache的原理和优化方案拆了个干净，附带实测数据

KV Cache是大模型推理优化里投入产出比最高的一环。正确配置vLLM的max_batch_size和gpu_memory_utilization打开Prefix Caching如果显存紧张，KV Cache量化到INT8这三步做完，吞吐量轻松翻倍。说白了，很多性能问题不是模型不行，是部署的人没配好缓存。下一篇我打算聊聊vLLM里PagedAttention的底层实现——那个才真叫精巧。感兴趣的

#性能优化

DeepSeek V4实测：1.6T MoE到底强在哪

DeepSeek V4两个月实测，从MoE架构、代码能力、200K窗口到API定价，真实体验分享。

#人工智能

PPT做得慢？我让AI从大纲直接出完整PPT，老板以为我加班了

说实话，我以前挺抗拒AI帮忙做PPT的，觉得"做PPT是展示思考能力，AI能代替吗"。但用过之后才发现：AI替代的不是你的思考，而是那些"思考完了还要花3小时把它变成PPT"的体力活。你负责想清楚要说什么，AI帮你把话说得更好看。周五交完PPT后，老板在群里回了句"效率可以"。我没好意思说是AI帮的忙。试一下，下次做PPT先打开DeepSeek而不是PowerPoint。

#人工智能

别再用一个AI了！不同AI擅长不同事，这样组合效率最高

说到底，AI 工具就像厨房里的刀——切菜的、剁骨的、削皮的，各有各的用处。你不需要把所有钱都花在买一把万能刀上，买几把趁手的，组合起来用，效率反而更高。如果你现在只用着一个 AI，我建议你至少再试一个。不一定按我的配置来，但"单一工具依赖"确实是个效率陷阱。试试看，说不定有惊喜。有问题欢迎评论区交流。下一篇打算聊聊「手机上的 AI 工具合辑」，感兴趣的可以关注。

#人工智能

大模型推理太慢？我把KV Cache的原理和优化方案拆了个干净，附带实测数据

#性能优化

DeepSeek V4深度解析：1.6T MoE、1M上下文、FP4推理，比V3到底强在哪

同等能力下，便宜 90%。同等价格下，能力强一大截。而且开源、可本地部署。

#DeepSeek

共 118 条

请选择