
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
技术拆解(十一):为什么你连7B模型都微调不动?从 SFT 到 QLoRA,再到 AWQ/GPTQ 部署,算清这笔显存账
这篇文章系统复盘了大模型全量SFT、LoRA、QLoRA微调与AWQ/GPTQ量化技术的底层原理、显存精算及工程落地决策。

AI技术拆解(三):Claude Code不上向量数据库,怎么做到低成本高召回?记忆机制拆解
Claude Code三层记忆架构:长期记忆层(CLAUDE.md与MEMORY.md)实现跨会话持久化;当前轮召回层通过语义匹配加载记忆,并采用Session Memory动态压缩上下文;会话持久层完整保存对话日志。该设计兼顾智能检索与成本控制。

技术拆解(四):DeepSeek V4核心揭秘-CSA和HCA混合注意力机制是如何工作的?
DeepSeek V3以MLA低秩压缩KV缓存,结合DSA闪电索引器动态筛选Top-k Token做稀疏注意力,将复杂度从O(L²)降至O(Lk)。DeepSeek V4进一步提出HCA+CSA混合架构:HCA以128:1激进压缩并采用FP4精度存储,CSA以4:1保守压缩后索引筛选再做MLA,两者交替堆叠,在百万Token长上下文下实现FLOPs降至27%、KVCache降至10%

效率神器(一):Claude Code快捷键终极指南:这20个键让你永远不用碰鼠标
主要介绍claude code常用的快捷键。

效率神器(二):国产模型怎么选?Claude/GPT怎么用?一篇说透
本文主要介绍国内国外主力模型使用效果比较及测评第三方网站

效率神器(四):Codex 二次验证的终极解法—— 我用“两个密钥”换掉了手机号
文本介绍了预防与应对Codex二次验证的核心方法,包括绑定境外号、开启高级安全等。

技术拆解(十):为什么你的大模型又慢又贵?搞懂量化原理、精度损失和 GPTQ/AWQ,推理成本直接砍半
本文概述大模型中的精度类型(浮点与整数)及四种主流量化方法(NF4、GPTQ、AWQ、GGUF),对比其原理、优缺点与适用场景。

AI成长笔记(二):马斯克说“人人都不用工作”,赫拉利说“那将是痛苦的开端”:谁是对的?
当AI让我们丰衣足食,为何我们可能更加痛苦?赫拉利与马斯克之争,戳中了人类文明最尴尬的真相。

技术拆解(六):从Prompt到Context到Harness,AI工作流的3次跃迁
从Prompt到Context到Harness,三次技术流的跃迁。









