logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

技术拆解(十一):为什么你连7B模型都微调不动?从 SFT 到 QLoRA,再到 AWQ/GPTQ 部署,算清这笔显存账

这篇文章系统复盘了大模型全量SFT、LoRA、QLoRA微调与AWQ/GPTQ量化技术的底层原理、显存精算及工程落地决策。

文章图片
#人工智能
AI技术拆解(三):Claude Code不上向量数据库,怎么做到低成本高召回?记忆机制拆解

Claude Code三层记忆架构:长期记忆层(CLAUDE.md与MEMORY.md)实现跨会话持久化;当前轮召回层通过语义匹配加载记忆,并采用Session Memory动态压缩上下文;会话持久层完整保存对话日志。该设计兼顾智能检索与成本控制。

文章图片
#人工智能#学习
技术拆解(四):DeepSeek V4核心揭秘-CSA和HCA混合注意力机制是如何工作的?

DeepSeek V3以MLA低秩压缩KV缓存,结合DSA闪电索引器动态筛选Top-k Token做稀疏注意力,将复杂度从O(L²)降至O(Lk)。DeepSeek V4进一步提出HCA+CSA混合架构:HCA以128:1激进压缩并采用FP4精度存储,CSA以4:1保守压缩后索引筛选再做MLA,两者交替堆叠,在百万Token长上下文下实现FLOPs降至27%、KVCache降至10%

文章图片
#人工智能#自然语言处理#深度学习 +1
效率神器(二):国产模型怎么选?Claude/GPT怎么用?一篇说透

本文主要介绍国内国外主力模型使用效果比较及测评第三方网站

文章图片
#人工智能#学习#深度学习
效率神器(四):Codex 二次验证的终极解法—— 我用“两个密钥”换掉了手机号

文本介绍了预防与应对Codex二次验证的核心方法,包括绑定境外号、开启高级安全等。

文章图片
#人工智能
技术拆解(十):为什么你的大模型又慢又贵?搞懂量化原理、精度损失和 GPTQ/AWQ,推理成本直接砍半

本文概述大模型中的精度类型(浮点与整数)及四种主流量化方法(NF4、GPTQ、AWQ、GGUF),对比其原理、优缺点与适用场景。

文章图片
#人工智能
AI成长笔记(二):马斯克说“人人都不用工作”,赫拉利说“那将是痛苦的开端”:谁是对的?

当AI让我们丰衣足食,为何我们可能更加痛苦?赫拉利与马斯克之争,戳中了人类文明最尴尬的真相。

文章图片
#人工智能
技术拆解(六):从Prompt到Context到Harness,AI工作流的3次跃迁

从Prompt到Context到Harness,三次技术流的跃迁。

文章图片
    共 20 条
  • 1
  • 2
  • 请选择