logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【模型架构篇02】模型压缩:知识蒸馏与剪枝

文章摘要: 本文系统介绍了大模型压缩的三大核心技术:知识蒸馏、剪枝和量化。通过对比分析,展示了不同压缩技术在模型大小、推理速度和性能保留方面的表现。知识蒸馏让小模型继承大模型能力,剪枝去除冗余参数,量化降低参数精度。三种技术可组合使用,实现10-20倍效率提升,仅损失10-20%性能。文章还提供了不同场景的压缩方案选型建议,并指出知识蒸馏相比直接训练小模型具有显著的成本优势。最终目标是让大模型在资

#剪枝#算法#机器学习
【模型架构篇01】大模型部署:从vLLM到ollama

大模型部署技术解析 本文系统介绍大模型部署的核心挑战与解决方案。主要内容包括: 部署挑战:大模型部署面临显存不足、推理速度慢等难题,以70B模型为例,FP16精度下需要148GB显存,远超单卡GPU容量。 量化技术:通过降低参数精度减少显存占用,包括FP8、INT8、4-bit等方案。量化后70B模型可压缩至35GB(4-bit),适配消费级GPU。 推理框架对比: vLLM:生产级高并发API服

#架构
【模型架构篇01】大模型部署:从vLLM到ollama

大模型部署技术解析 本文系统介绍大模型部署的核心挑战与解决方案。主要内容包括: 部署挑战:大模型部署面临显存不足、推理速度慢等难题,以70B模型为例,FP16精度下需要148GB显存,远超单卡GPU容量。 量化技术:通过降低参数精度减少显存占用,包括FP8、INT8、4-bit等方案。量化后70B模型可压缩至35GB(4-bit),适配消费级GPU。 推理框架对比: vLLM:生产级高并发API服

#架构
【AI基础篇10】RAG:检索增强生成详解

文章摘要: RAG(检索增强生成)通过检索外部知识库解决大模型的三大短板:知识陈旧、私有数据缺失和事实准确性不足。其核心流程分为三阶段:离线索引(文档分块、向量化存储)、在线检索(问题向量化匹配Top-K文档)和生成(拼接Prompt后由LLM回答)。关键环节包括文档清洗、分块策略优化(固定长度/语义分割等)、重叠策略和参数调优。RAG适用于客服、法律、医疗等需私有知识的场景,但不适合创意写作等通

#人工智能
【AI基础篇09】大模型幻觉问题:为什么AI会一本正经地胡说八道?

大模型幻觉指AI生成看似合理实则错误的内容,如编造法律案例、医疗建议或历史事实。其根源在于:1)模型本质是统计学习而非真实认知,无法区分"可能"与"正确";2)训练数据噪声、知识压缩损失及目标偏差(预测vs求真)导致矛盾。幻觉分为事实型、逻辑型等,混合真假的内容最危险。解决方案包括:提示词优化(明确限制)、RAG(检索增强生成)、模型微调(对齐事实性)及量化评估(FActScore指标)。关键在于

#人工智能
【AI基础篇08】大模型评估指标:困惑度、BLEU、ROUGE

困惑度(Perplexity,PPL)是语言模型最基础的自评估指标,衡量模型对下一个token的"不确定程度"。直觉理解:一个"困惑"的模型:"我今天去___" → 模型:可能是"上学"(30%)、"上班"(30%)、"医院"(20%)、"玩"(20%)模型很困惑,不知道哪个更合理困惑度 = 高一个"自信"的模型:"我今天去___" → 模型:应该是"上班"(85%)、"上学"(10%)、"医院"

#人工智能
【AI基础篇07】预训练 vs 微调 vs 提示工程

本文系统对比了大语言模型的三种使用方式:预训练(Pre-training)、微调(Fine-tuning)和提示工程(Prompt Engineering)。预训练是从零开始学习语言规律,需要海量无标注数据和极高计算成本;微调是定向优化预训练模型,适用于领域适配和私有部署;提示工程则通过优化输入文本来引导模型输出,成本最低但效果依赖设计技巧。文章详细分析了三者在数据需求、计算成本、适用场景等方面的

#人工智能#深度学习#机器学习
【AI基础篇06】位置编码:为什么需要它?

【位置编码:让Transformer理解顺序的关键技术】 本文系统梳理了Transformer中位置编码的发展历程与技术原理。针对Attention机制缺乏顺序感知的问题,位置编码通过注入位置信息使模型能够区分"我喜欢猫"和"猫喜欢我"等语序差异。文章首先分析了位置编码需要满足的四大特性:唯一性、距离感知、外推性和相对位置敏感性。随后详细讲解了各类编码方案: 绝对位置编码:以Sinusoidal

#人工智能#自然语言处理#深度学习
【AI基础篇05】注意力机制:Self-Attention详解

本文深入解析了Transformer中的注意力机制(Self-Attention)。主要内容包括: 注意力机制的核心思想:通过Query、Key、Value三个矩阵实现加权关注,解决RNN的长距离依赖问题。 数学原理:详细拆解Attention计算公式(QK^T缩放、Softmax归一化、加权求和),解释维度缩放的作用。 两种Attention类型:Self-Attention(同源序列内部交互)

#人工智能
到底了