ppbk_ 个人主页

@ppbk_

ppbk_

2024-06-04 16:45:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深入浅出 Attention 机制优化：从问题到主流变体实践

Attention 机制的优化是大模型从实验室走向工业落地的关键。从算法层面的 Multi-Query/GQA，到硬件层面的 FlashAttention，再到结构层面的并行 Block，每一种优化方案都是在效果、速度、显存三者之间做最优权衡。追求极致推理速度：优先考虑 Multi-Query Attention + FlashAttention；平衡效果与效率：选择 Grouped-Query

#python

Attention机制深度解析：问题、优化方向与经典变体

从传统Attention到MQA、GQA、FlashAttention的演进，核心逻辑始终是“在保证模型效果不显著下降的前提下，最大化提升效率、降低资源开销”：MQA主打“极致效率”，通过全共享KV实现显存和速度的突破，适合部署场景；GQA主打“平衡取舍”，通过分组共享兼顾效果与效率，适合对效果要求较高的大模型；FlashAttention主打“硬件适配”，通过分块计算和Kernel融合挖掘硬件潜

#python

大模型（LLMs）基础核心知识点梳理

大模型是相对概念，最初指参数量在1亿以上的模型；随着技术发展，标准不断升级，目前万亿参数以上的模型（如GPT-4、PaLM-2）也属于大模型范畴。大语言模型（LLM）是大模型的子集，专门针对自然语言处理任务设计，核心能力是理解和生成人类语言。数据利用效率高：通过“预训练+微调”范式，用大量无标注数据训练通用模型，再用少量标注数据适配特定任务，大幅降低数据标注成本，提升模型泛化能力；生成能力强大：依

#人工智能

大模型微调全攻略：从基础认知到实战落地

随着大语言模型（LLM）的快速发展，单纯使用预训练基座模型已难以满足特定场景的需求，微调（Fine-Tuning）成为解锁模型定制化能力的核心手段。无论是全参数微调的算力规划，还是参数高效微调（PEFT）的轻量化实现，掌握微调技术都能让 LLM 更好地适配垂直领域任务。本文将从基础概念、关键问题、实战操作三个维度，带你全面掌握大模型微调的核心知识与实操技巧。算力有限时，优先选择 LoRA 微调，兼

#人工智能

大模型面试与实用技巧教学

随着自然语言处理（NLP）技术的飞速发展，大语言模型（LLM）如GPT、BERT、LLaMA等已成为学术研究和产业应用的热点。无论是智能客服、内容生成还是复杂推理任务，大模型都展现出强大的潜力。然而，如何高效使用、微调和优化这些模型？本文将基于大模型面试中的高频问题，梳理关键知识点，并提供实用技巧，帮助读者快速掌握大模型的核心应用方法。：是的，大语言模型具备推理能力。推理是指模型在训练后，对新的输

#人工智能

图解分布式训练（一）：流水线并行核心逻辑与实践要点

Gpipe提出的流水线并行，通过“切分Micro-batch”和“Re-materialization”两个核心设计，完美解决了朴素模型并行的“气泡空转”和“显存不足”问题，最终实现了“更大模型、更快训练”的目标。其核心价值可总结为：解决“单卡装不下大模型”的核心痛点，且模型大小可随GPU数量线性扩展（结构规整模型效果最佳）；通过流水线设计大幅提升GPU利用率，通信开销低，不依赖硬件高速通信（普通

#分布式

大模型分布式训练全攻略：从理论到落地，避开90%的坑

核心原则：先解决“能不能跑”，再解决“跑不跑得快”；优先用简单方案，复杂方案（如3D并行）只在超大规模模型时考虑。场景最优策略框架选择单卡，显存够用单卡训练，混合精度单卡，显存不够Offload + 重计算单节点多卡（无NVLINK）DeepSpeed单节点多卡（有NVLINK）TP + DDP + 混合精度多节点多卡（高速网）3D并行（TP+PP+DP）新手/快速验证ZeRO-2 + 数据并行大

#分布式

大模型分布式训练故障恢复指南：ckpt 策略 + 断点续训实战

ckpt 策略是基础：根据集群稳定性和模型大小，设置最优存储间隔，平衡存储开销和故障损失；异步存储需谨慎：优先选择脚本侧同步等待方案，保证数据一致性，避免内存踩踏；临终遗言是进阶方向：在满足参数完整性的前提下，通过框架定制实现故障瞬间存储，最小化补训成本；恢复前必校验：加载 ckpt 后，务必校验数据完整性和分布式环境一致性，避免恢复后训练异常。大模型分布式训练的故障恢复，本质是 “预防” 与 “

#python

PyTorch 分布式计算避坑指南：3 大高频 bug + 解决方案，告别训练卡死 / 显存不均

PyTorch 分布式计算的坑，核心集中在数据分配不均和进程同步显存不均：加载模型时指定，避免 0 卡抢占；训练卡死：保证每张卡的 batch 数量一致，排查 GPU 通信和 BatchSize；多卡扩展问题：先验证 GPU 通信，再检查数据加载和资源配置。遵循 “先单卡后多卡、先小规模后大规模” 的原则，再结合本文的坑点排查，就能大幅减少分布式训练的问题，让大模型训练顺畅运行～

#pytorch #bug #人工智能

大模型 Agent 全解析：原理、架构、实战代码与框架选型

大模型 Agent 是基于大模型（LLM）构建的智能系统，核心特点是具备自主性和任务执行能力—— 它能理解用户需求，拆解复杂任务，调用工具获取信息，还能从错误中学习，最终独立完成目标。简单说：普通大模型是 “问答机器”，而 Agent 是 “全能助手”。普通大模型：你问 “推荐一件衣服”，它会生成文本推荐；Agent：你问 “推荐一件衣服”，它会先确认你的需求（风格、尺码），调用商品推荐工具，再整

#架构

共 31 条

请选择