麦庐最后的光个人主页

@2301_81376705

麦庐最后的光

2026-06-11 16:05:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

小白也能看懂的模型量化：让大模型瘦身70%还能聪明如初

量化原理：FP32 → FP16 → INT8 → INT4，就像图片从无损到 JPEG，体积越来越小，细节略有损失但整体可用PTQ vs QAT：训练后量化是主流（拍完照再压缩），量化感知训练更精准但成本高（拍照时就考虑压缩）四大方法GPTQ：二阶信息补偿，精度好，GPU 推理快AWQ：激活感知缩放，速度最快，精度与 GPTQ 相当GGUF：CPU 友好，本地部署首选，Q4_K_M 是性价比之王

小白也能看懂的LoRA微调：一张显卡也能玩转大模型

预训练模型 + 你的数据 = 你的专属模型大模型在训练时已经"读"了海量互联网文本，具备很强的通用能力。但如果你想让它做特定领域的事情——比如当客服机器人、写医疗报告、生成法律合同——通用模型就不太够用了。微调就是拿一个已经训练好的模型，再用你自己准备的数据继续训练它，让它学会你的"行话"和"规矩"。就好比一个什么都会的实习生，你给他一些业务文档和案例培训几天，他就能上手干活了。LoRA已经成为微

#机器学习

小白也能看懂的大模型推理基础：KV Cache 让生成速度飞起来

训练 vs 推理：训练计算密集、推理显存密集，优化逻辑完全不同；推理双阶段：Prefill 并行处理输入（计算瓶颈），Decode 逐字生成（显存带宽瓶颈）；KV Cache 核心价值：缓存历史 K、V 向量，消除平方级重复计算，复杂度 O (N²)→O (N)，推理必备；KV Cache 痛点：长序列、多并发大量占用显存，70B 模型 4k 序列缓存可达 12.8GB；缓存优化方案：GQA 是当

小白也能看懂的知识蒸馏：大模型变小模型的“浓缩咖啡“术

量化：把模型里的数字从高精度变成低精度（FP16→INT8），就像把高清图压缩成标清图蒸馏：让大模型教小模型，小模型从头学，就像老教授带研究生剪枝：把模型里"不重要"的参数直接删掉，就像修剪树枝——去掉枯枝，保留精华今天我们聊了知识蒸馏——让大模型变小模型的"浓缩咖啡"术。核心思想：大模型当老师，小模型当学生，通过软标签传递"暗知识"关键机制：温度参数 T 控制软标签的平滑度，KL 散度衡量师生差

#人工智能

小白也能看懂的多模态大模型：当AI学会“看“和“听“

视觉编码器（摄影师）+ 投影层（翻译官）+ LLM（教授）GPT-4V（闭源标杆）、LLaVA（开源先锋）、Qwen-VL（中文强）、InternVL（视觉编码器大）用 GPT-4 生成图文对话数据，两阶段训练MMBench（通用）、MMMU（大学级）、MathVista（数学图表）从图文理解到文档OCR，从视频理解到代码截图转代码用 Qwen2-VL 或 LLaVA 跑通图文理解多模态大模型让

#人工智能

小白也能看懂的多模态大模型：当AI学会“看“和“听“

#人工智能

小白也能看懂的MoE架构：Mixtral、DeepSeek背后的混合专家

Prefill + Decode 两阶段：像考试一样，先审题（并行处理），再写答案（逐字生成）。KV Cache：像草稿纸一样缓存中间结果，避免重复计算，是加速的基石。模型量化：像图片压缩一样缩小模型体积，INT4 量化让大模型在消费级显卡上也能跑。：减少"搬运数据"的次数，让注意力计算快好几倍。投机解码：小助理写草稿、老板审核，用并行换速度，质量不打折。批处理：让多个用户共享 GPU，Conti

#深度学习

小白也能看懂的Transformer架构：从注意力机制到GPT的基石

输入文本│▼[词嵌入 + 位置编码] ← 把文字变成向量，并告诉模型词的顺序│▼│ Transformer Block │ ← 这个方块重复N次（比如GPT-3重复了96次）│ │ Multi-Head │ │ ← 从多个角度理解词与词的关系│ + 残差连接 │ ← 抄近道，防止信息丢失│ │ Feed-Forward │ │ ← 对每个词做进一步加工│ + 残差连接 ││▼输出（下一个词的概率分

#transformer

小白也能看懂的本地部署实战：Ollama、llama.cpp与硬件选型全攻略

基于Qwen2.5-7B创建自定义模型# 设置系统提示词（给模型一个"人设"）SYSTEM """你是一位资深的Python编程导师，擅长用通俗易懂的方式解释编程概念。回答时请遵循以下规则：1. 先给出简洁的结论2. 再用代码示例说明3. 最后补充注意事项"""# 设置参数# 构建自定义模型# 运行现在你的模型就是一个专业的Python导师了！│ 本地部署知识图谱 ││ ││ │ 硬件选型 │──

#php #服务器 #开发语言

小白也能看懂的推理加速框架：vLLM、TGI与Continuous Batching

像餐厅翻台一样，做完就走、来了就坐，GPU 始终满载，吞吐量提升 2~4 倍：像操作系统管理内存一样管理 KV Cache，显存利用率从 40% 飙到 95%，同样显存能服务 4 倍的请求vLLM：PagedAttention 的发明者，推理框架界的性能卷王，OpenAI 兼容 API 开箱即用TGI：HuggingFace 官方出品，生态整合无敌，Docker 一键部署：NVIDIA 亲儿子，性

#人工智能

共 19 条

请选择