
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: Embedding模型在召回文档时,常因语义相似但内容无关的“干扰项”导致大模型错误回答。为解决该问题,可采用**Rerank模型(Cross-Encoder)**进行精细化排序,其通过全注意力机制实现Query与Document的深层交互,显著提升精度。微调Rerank需高质量数据,重点挖掘“硬负例”(表面相关但实际无关的文档),并结合硬件优化Batch Size、Epochs和学习率等

摘要: 针对垂直领域部署大模型时,直接使用大参数量模型面临高成本和推理速度慢的问题。Teacher-Student模式通过利用大模型生成高质量数据训练小模型,实现“算力换智力”。该模式分为三步:教师生成数据、过滤清洗、学生微调。进阶方法包括思维链蒸馏和过程奖励蒸馏,显著提升小模型在复杂任务中的表现。以医疗诊断为例,通过构造详细推理Prompt和严格数据清洗,可使小模型在私有化部署中接近大模型效果,

摘要:MOE(混合专家系统)已成为大语言模型的核心架构,通过多个专家网络和门控机制实现高效任务处理。文章介绍了MOE的基本原理(专家网络+门控系统)及其优势:提升性能、降低计算消耗、增强扩展性。作者从基础MOE实现入手,逐步讲解到Sparse MoE(仅激活topK专家)的实现方法,并提供了PyTorch代码示例。最后指出AI人才缺口巨大,鼓励读者把握学习机会。

本文系统梳理了强化学习在大模型中的应用,重点分析了其在语言模型和推荐系统中的实践路径。首先阐述了强化学习的核心机制与主流算法(如PPO、GRPO等),指出其相比监督学习的优势在于处理动态环境和不可微奖励。随后详细探讨了强化学习在语言模型(如InstructGPT、DeepSeekMath)中的具体实现,包括奖励模型设计和算法优化。最后介绍了推荐大模型(如Onerec、RecGPTV2)如何借鉴语言

RLHF(基于人类反馈的强化学习)奖励模型训练(Reward Model Training):训练一个语言模型,用于判断回答的“好”与“坏”(例如“点赞”或“点踩”)。RLHF 微调(RLHF Fine-Tuning):使用由人类专家标注的**(提示,好回答,坏回答)** 数据,结合奖励模型对 LLM 进行对齐训练,使其生成更符合人类偏好的回答。1、训练奖励模型 - 学习人类的偏好训练一个能够代替

除此之外,内存优化、Matmulkernel自动调整,BeamSearch 等技术也被应用在FT的框架之中FlashAttention作为一种针对大模型的Attention计算过程的加速技术,同样在FT中有对应的实现,不过一般更多的应用于大模型的推理中,较小的Transformer结构很少使用该kernel。要改变 Ollama 存储下载模型的位置(默认是存储在 C 盘的用户目录,会占用 C 盘的

既然大模型现在这么火热,各行各业都在开发搭建属于自己企业的私有化大模型,那么势必会需要大量大模型人才,同时也会带来大批量的岗位,雷军曾说过:“站在风口,猪都能飞起来”可以说现在大模型就是当下风口,是一个可以改变自身的机会,就看我们能不能抓住!多智能体提示词设计,大概源于人类的分工合作思想,Prompt如果设定过多的不同任务,很可能会导致大模型无法准确跟随指令,因此给不同的智能体设计专用的Promp

LoRA与QLORA:高效微调大模型的新方法 LoRA(低秩适应)通过引入小型低秩矩阵微调大模型关键权重,避免全参数调整,显著降低计算开销。QLORA结合4-bit量化技术,在保持精度的同时将显存占用降低83%,使单卡微调百亿参数模型成为可能。 适配器调整与前缀调整 适配器通过在模型层间插入小型可训练模块实现任务适应,保持主体参数不变。前缀调整则在输入序列前添加可训练虚拟标记,动态引导模型输出,支

相较于非结构化剪枝的随机权重剪裁,虽然其理论压缩上限较低,但结构化剪枝带来的模型精度损失更可控,在工业级部署中通常可获得1.8-2.5倍的实际加速效果,特别是在移动端部署场景下,该技术可使ResNet-50等典型模型的推理延迟从230ms优化至92ms,满足边缘计算设备的实时性要求。该技术的核心机制在于利用教师网络训练过程中产生的知识信号(包括概率分布、特征图、注意力权重等)来引导学生模型的优化方

AI大模型技术解析:14个核心概念构建认知框架 本文系统梳理了AI大模型的14个关键概念,涵盖基础架构、训练优化和前沿应用。从Transformer架构、Token处理到嵌入模型和混合专家模型,详细介绍了大模型的技术基础。深入探讨了预训练、微调和对齐等训练方法,特别是RLHF对齐技术的三阶段流程。文章还分析了扩展定律、计算优化等理论,以及LoRA等高效微调技术。通过技术原理与实际应用的结合,帮助读








