logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型分布式训练(DP、TP、PP、CP、EP、SP)六大并行策略深度解析-从原理到实践

本文深入解析了大模型训练的六种分布式并行策略:基础并行策略(数据并行DP、张量并行TP、流水线并行PP)、长序列并行策略(序列并行SP、上下文并行CP)和稀疏化并行策略(专家并行EP)。作者结合实践经验,详细介绍了每种策略的核心原理、实现方式和优缺点,特别强调了数据并行中的All-Reduce操作、张量并行的矩阵分割技巧以及流水线并行的微批次调度方法。文章还提到ZeRO优化技术如何解决内存瓶颈问题

#分布式#人工智能
大模型必知基础知识:5、Transformer架构-前馈神经网络(FFN)原理详解

前馈神经网络(FFN)是Transformer架构中的核心组件之一。本文详细介绍了FFN的基本原理及其在Transformer中的应用。FFN通过"先展开再压缩"的结构设计(通常包含两个线性变换层和ReLU激活函数),实现了对输入数据的非线性变换和复杂特征提取。在Transformer中,FFN位置独立地作用于每个token的表示,并与自注意力机制协同工作,为模型提供更强的表达

文章图片
#神经网络#人工智能#语言模型
大模型强化学习PPO、DPO、GRPO、GSPO算法深度对比:原理讲解-举例理解-代码案例实践

本文深入对比了四种大语言模型强化学习算法。PPO通过裁剪机制保证稳定训练但需奖励模型;DPO直接利用偏好数据避免奖励模型训练;GRPO引入群组比较提升多样性;GSPO选择性优化样本对提高效率。PPO稳定性好但复杂,DPO简单但依赖数据质量,GRPO增强多样性,GSPO结合多种优势但需调参。这些方法各有利弊,适用于不同场景,研究者可根据具体需求选择合适算法。

#人工智能
如何把ChatGPT嵌入到自己的应用中?

AgentKit是OpenAI推出的开发者工具包,让ChatGPT智能体可嵌入任意网站或应用。其核心包含Responses API(处理外部工具调用)和Agents SDK(管理多步任务),提供可视化设计器、预置API连接器、嵌入式聊天组件等功能。内置安全防护机制、评测追踪工具和强化学习功能,开发者无需处理底层逻辑即可快速构建能执行多步任务的AI助手。该工具包将ChatGPT的复杂性抽象为可复用平

文章图片
#人工智能
从 YAML 到 Markdown:规范驱动开发的演化与 AI 原生范式的崛起

从Kubernetes的YAML到AI时代的Markdown,技术领域正经历一场"声明式革命"的范式转移。云原生时代用YAML声明基础设施配置,AI原生时代则用Markdown声明智能体行为。GitHub的.prompt.md、AGENTS.md、SpecKit等工具标志着规范驱动开发(SDD)的兴起,开发者通过Markdown定义AI的语气、规则和能力模块,实现了从&quot

文章图片
#驱动开发#人工智能
大模型必知基础知识:8、Transformer架构-如何理解学习率 Learning Rate

学习率(Learning Rate)是深度学习中的关键超参数,控制模型参数每次更新的步幅大小。本文通过"下山"比喻形象说明:学习率过大会导致模型在最优解附近震荡或发散;过小则收敛缓慢且易陷入局部最优。学习率的工作原理是结合梯度方向决定参数更新幅度(公式:w_new=w_old-η×∇L)。实际应用中需要平衡收敛速度和稳定性,初期可采用较大学习率快速下降,接近最优解时减小学习率精

文章图片
#transformer
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

Cursor 2.0发布首款自研编码模型Composer,性能突破显著:30秒完成复杂任务,比同行快400%;支持语音生成代码、浏览器工具自主调试等新功能;采用强化学习训练的MoE架构,通过真实环境训练显著提升性能;每秒生成250个token,速度达到主流模型的2-4倍;但模型底层架构细节未完全公开,引发业界对其"自研"性质的讨论。

文章图片
#人工智能
AI圈正陷入命名地狱!Claude Skills上线,却遭开发者集体吐槽:LLM生态要爆炸了!

Anthropic发布ClaudeSkills新功能,让AI能调用特定"技能"完成专业任务。每个技能由指令、脚本和资源组成,可本地存储或云端调用,实现按需加载。该功能支持办公自动化、企业知识管理等多种场景,还能执行真实代码以提高效率。虽然功能强大,但也引发安全担忧和AI生态术语混乱的争议。开发者可轻松创建技能,企业则可构建内部技能库。这一创新或将推动AI向更专业化的方向发展,但

文章图片
#人工智能
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解

大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能

文章图片
对 GPT 5 模型路由机制的深度解析

摘要:GPT-5引入"智能路由器"架构,实现了专家模型的动态协同,标志着大模型从"全能单体"向"专业协同"的范式转变。文章分析了其基于对话类型、任务复杂度、工具需求和用户意图的四大路由决策支柱,对比了其在响应速度、资源优化等方面相较于GPT-4的突破性进步。同时探讨了该架构的技术实现路径、调试困难等挑战,并提供了开源工具构建方案。作者认为

文章图片
#人工智能
    共 127 条
  • 1
  • 2
  • 3
  • 13
  • 请选择