
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本人双非硕,硕士课题研究机械臂抓取相关的工作,秋招两个半月,投递简历500+,笔试测评若干,面试10+,到手小厂视觉算法岗offer一个。奈何算法太吃bg了,准备转大模型开发,这个专栏用于记录我的大模型学习记录。,老师讲的很不错!
作用是创建一个同步屏障,所有进程必须在此处等待,直到所有进程都到达这个点才能继续执行。它的核心思想是:将大批次数据拆分到多个GPU上,每个GPU计算部分梯度,然后聚合梯度更新模型,确保每个模型的权重都是一样的,然后再进行下一个epoch的训练。接下来需要建立多GPU/多机器间的通信网络,让所有训练进程能够互相识别和通信,这是是DDP分布式训练的核心初始化部分。DDP(分布式数据并行) 是PyTo
同时,为防止 FP16 表示范围有限导致梯度下溢(变为零),它使用 GradScaler 对损失值进行放大(如乘以1024),使反向传播产生的梯度落在 FP16 的有效范围内;整个过程由框架自动管理哪些操作使用 FP16、哪些必须保留 FP32(如 BatchNorm 或 softmax),从而在几乎不损失模型精度的前提下,显著提升训练速度并降低显存消耗。AMP(Automatic Mixed P
在标准的反向传播中,所有中间层的激活值(即前向传播的输出)都需要保存在显存中,以便计算梯度时使用。激活值检查点的核心思想是:不在前向传播时保存所有中间激活值,而只保存部分关键层的输出(称为“检查点”);在反向传播需要某段中间激活时,临时从最近的检查点重新执行前向计算来恢复,用时间换空间。)启用激活值检查点(Activation Checkpointing),以在训练时节省显存。,即按常规方式完成前
但当 batch size 很大时,中间激活和梯度会占用大量显存,可能超出 GPU 显存。当batch size很小,比如为1时不会超过GPU显存,它会每训练一个样本,然后计算一次梯度,由于样本之间的差异很大,导致更新的梯度忽大忽小不可控,导致训练过程不稳定、收敛缓慢,甚至无法收敛。得到平均梯度,然后一次性更新模型参数,从而在不增加显存占用的前提下,获得大。都是参数,他们会在反向传播的过程中会进行
问题类别具体描述优点- 基于多进程架构,避免 Python GIL 限制,训练更稳定高效。- 使用高效的 All-Reduce(如 NCCL)进行梯度同步,通信带宽利用率高。- 支持单机多卡和多机多卡训练,扩展性强。- 各 GPU 显存占用均衡,无主 GPU 瓶颈。- 与torchrun等标准工具链无缝集成,是 PyTorch 官方推荐方案。缺点- 每个进程需加载完整模型副本,显存开销大,难以直接
基于本地 PDF 文档,利用 Qwen 大模型自动生成问答对,并微调开源中文嵌入模型 bce-embedding-base_v1,打造适用于特定领域的高精度语义检索系统。:全程使用(Qwen + BCE),无需联网调用 API;完整支持中文场景;适配 LlamaIndex RAG 流程。
问题类别具体描述优点- 基于多进程架构,避免 Python GIL 限制,训练更稳定高效。- 使用高效的 All-Reduce(如 NCCL)进行梯度同步,通信带宽利用率高。- 支持单机多卡和多机多卡训练,扩展性强。- 各 GPU 显存占用均衡,无主 GPU 瓶颈。- 与torchrun等标准工具链无缝集成,是 PyTorch 官方推荐方案。缺点- 每个进程需加载完整模型副本,显存开销大,难以直接
是Python 的异步编程模型。允许在单线程中并发处理多个 I/O 操作(比如等待网络、文件、数据库)。
工具执行可能失败(如除零错误)。我们可以通过中间件拦截异常并返回友好提示。try:str)",@dataclassAgent 默认记住对话历史(messages),但我们还可以添加自定义字段,如user_info。本文通过六个递进式实验,系统性地展示了 LangChain/LangGraph 框架下构建高阶 Agent 的关键技术路径。能力维度技术实现机制核心价值典型应用场景工具集成与推理链编排通







