
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Attention 机制的优化是大模型从实验室走向工业落地的关键。从算法层面的 Multi-Query/GQA,到硬件层面的 FlashAttention,再到结构层面的并行 Block,每一种优化方案都是在效果、速度、显存三者之间做最优权衡。追求极致推理速度:优先考虑 Multi-Query Attention + FlashAttention;平衡效果与效率:选择 Grouped-Query
从传统Attention到MQA、GQA、FlashAttention的演进,核心逻辑始终是“在保证模型效果不显著下降的前提下,最大化提升效率、降低资源开销”:MQA主打“极致效率”,通过全共享KV实现显存和速度的突破,适合部署场景;GQA主打“平衡取舍”,通过分组共享兼顾效果与效率,适合对效果要求较高的大模型;FlashAttention主打“硬件适配”,通过分块计算和Kernel融合挖掘硬件潜
大模型是相对概念,最初指参数量在1亿以上的模型;随着技术发展,标准不断升级,目前万亿参数以上的模型(如GPT-4、PaLM-2)也属于大模型范畴。大语言模型(LLM)是大模型的子集,专门针对自然语言处理任务设计,核心能力是理解和生成人类语言。数据利用效率高:通过“预训练+微调”范式,用大量无标注数据训练通用模型,再用少量标注数据适配特定任务,大幅降低数据标注成本,提升模型泛化能力;生成能力强大:依
随着大语言模型(LLM)的快速发展,单纯使用预训练基座模型已难以满足特定场景的需求,微调(Fine-Tuning)成为解锁模型定制化能力的核心手段。无论是全参数微调的算力规划,还是参数高效微调(PEFT)的轻量化实现,掌握微调技术都能让 LLM 更好地适配垂直领域任务。本文将从基础概念、关键问题、实战操作三个维度,带你全面掌握大模型微调的核心知识与实操技巧。算力有限时,优先选择 LoRA 微调,兼
随着自然语言处理(NLP)技术的飞速发展,大语言模型(LLM)如GPT、BERT、LLaMA等已成为学术研究和产业应用的热点。无论是智能客服、内容生成还是复杂推理任务,大模型都展现出强大的潜力。然而,如何高效使用、微调和优化这些模型?本文将基于大模型面试中的高频问题,梳理关键知识点,并提供实用技巧,帮助读者快速掌握大模型的核心应用方法。:是的,大语言模型具备推理能力。推理是指模型在训练后,对新的输
Gpipe提出的流水线并行,通过“切分Micro-batch”和“Re-materialization”两个核心设计,完美解决了朴素模型并行的“气泡空转”和“显存不足”问题,最终实现了“更大模型、更快训练”的目标。其核心价值可总结为:解决“单卡装不下大模型”的核心痛点,且模型大小可随GPU数量线性扩展(结构规整模型效果最佳);通过流水线设计大幅提升GPU利用率,通信开销低,不依赖硬件高速通信(普通
核心原则:先解决“能不能跑”,再解决“跑不跑得快”;优先用简单方案,复杂方案(如3D并行)只在超大规模模型时考虑。场景最优策略框架选择单卡,显存够用单卡训练,混合精度单卡,显存不够Offload + 重计算单节点多卡(无NVLINK)DeepSpeed单节点多卡(有NVLINK)TP + DDP + 混合精度多节点多卡(高速网)3D并行(TP+PP+DP)新手/快速验证ZeRO-2 + 数据并行大
ckpt 策略是基础:根据集群稳定性和模型大小,设置最优存储间隔,平衡存储开销和故障损失;异步存储需谨慎:优先选择脚本侧同步等待方案,保证数据一致性,避免内存踩踏;临终遗言是进阶方向:在满足参数完整性的前提下,通过框架定制实现故障瞬间存储,最小化补训成本;恢复前必校验:加载 ckpt 后,务必校验数据完整性和分布式环境一致性,避免恢复后训练异常。大模型分布式训练的故障恢复,本质是 “预防” 与 “
PyTorch 分布式计算的坑,核心集中在数据分配不均和进程同步显存不均:加载模型时指定,避免 0 卡抢占;训练卡死:保证每张卡的 batch 数量一致,排查 GPU 通信和 BatchSize;多卡扩展问题:先验证 GPU 通信,再检查数据加载和资源配置。遵循 “先单卡后多卡、先小规模后大规模” 的原则,再结合本文的坑点排查,就能大幅减少分布式训练的问题,让大模型训练顺畅运行~
大模型 Agent 是基于大模型(LLM)构建的智能系统,核心特点是具备自主性和任务执行能力—— 它能理解用户需求,拆解复杂任务,调用工具获取信息,还能从错误中学习,最终独立完成目标。简单说:普通大模型是 “问答机器”,而 Agent 是 “全能助手”。普通大模型:你问 “推荐一件衣服”,它会生成文本推荐;Agent:你问 “推荐一件衣服”,它会先确认你的需求(风格、尺码),调用商品推荐工具,再整







