
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入解析了大模型训练的六种分布式并行策略:基础并行策略(数据并行DP、张量并行TP、流水线并行PP)、长序列并行策略(序列并行SP、上下文并行CP)和稀疏化并行策略(专家并行EP)。作者结合实践经验,详细介绍了每种策略的核心原理、实现方式和优缺点,特别强调了数据并行中的All-Reduce操作、张量并行的矩阵分割技巧以及流水线并行的微批次调度方法。文章还提到ZeRO优化技术如何解决内存瓶颈问题
本文系统介绍了大语言模型(LLM)的核心概念、发展历程及其独特能力。LLM通过超大规模参数(百亿至千亿级)和大量数据训练,展现出传统模型不具备的涌现能力,包括上下文学习、指令遵循和逐步推理等。文章梳理了从GPT-3到ChatGPT等代表性模型的演进历程,并分析了LLM在多语言支持、长文本处理、多模态扩展等方面的技术特征,同时也指出了幻觉问题等挑战。

本文对比了三种强化学习对齐方法:RLHF(基于人类反馈)、RLAIF(基于AI反馈)和RLVR(基于可验证奖励)。RLHF依赖人工标注但质量高,RLAIF通过AI模型降低成本但可能产生偏差,RLVR则利用自动验证程序(如代码测试、数学答案比对)实现客观评估。RLVR在可扩展性和准确性方面优势显著,尤其适合结构化任务。文章还提供了技术实现框架和工程选型建议,指出RLVR是推理类大模型的重要发展方向。
本文对比了三种强化学习对齐方法:RLHF(基于人类反馈)、RLAIF(基于AI反馈)和RLVR(基于可验证奖励)。RLHF依赖人工标注但质量高,RLAIF通过AI模型降低成本但可能产生偏差,RLVR则利用自动验证程序(如代码测试、数学答案比对)实现客观评估。RLVR在可扩展性和准确性方面优势显著,尤其适合结构化任务。文章还提供了技术实现框架和工程选型建议,指出RLVR是推理类大模型的重要发展方向。
本文介绍了一种基于1.6万张医学影像数据微调大模型的方法,使其从"门外汉"进化为专业的"AI放射科医生"。通过LLaMA-FactoryOnline平台,采用Qwen3-VL-30B-A3B稀疏激活架构,在保持30亿参数激活量的同时,实现了对高分辨率医学影像的精准分析。研究对比了DeepSpeed Stage2和Stage3两种微调方案,发现Stage2虽显

本文介绍了一种基于1.6万张医学影像数据微调大模型的方法,使其从"门外汉"进化为专业的"AI放射科医生"。通过LLaMA-FactoryOnline平台,采用Qwen3-VL-30B-A3B稀疏激活架构,在保持30亿参数激活量的同时,实现了对高分辨率医学影像的精准分析。研究对比了DeepSpeed Stage2和Stage3两种微调方案,发现Stage2虽显

OpenAI发布GPT-5.1系列重大更新,包含GPT-5.1Instant和GPT-5.1Thinking两个模型。前者更智能温暖、指令执行能力更强,后者在复杂推理任务上表现更优。新模型实现了自适应推理、更快的响应速度和更自然温暖的对话风格,在数学编程评测中表现突出。升级首先面向付费用户推出,API版本也将同步更新。OpenAI采用GPT-5.1的命名方式表明这是GPT-5系列的重大改进,同时发
Anysphere公司推出的Cursor编程工具2.0版本正式发布其自研大型语言模型Composer,这是一款专为生产环境设计的高性能编程模型。Composer具备30秒内快速响应能力,在复杂代码处理上表现优异,采用强化学习+专家混合模型架构,支持多代理协作开发。该模型已在Cursor工程团队实际使用,提供从免费到200美元/月的多级订阅方案,在编程智能和生成速度上均优于同类产品。虽然其具体训练方
Anysphere公司推出的Cursor编程工具2.0版本正式发布其自研大型语言模型Composer,这是一款专为生产环境设计的高性能编程模型。Composer具备30秒内快速响应能力,在复杂代码处理上表现优异,采用强化学习+专家混合模型架构,支持多代理协作开发。该模型已在Cursor工程团队实际使用,提供从免费到200美元/月的多级订阅方案,在编程智能和生成速度上均优于同类产品。虽然其具体训练方
摘要:谷歌DeepMind和加州大学伯克利分校的最新研究表明,AI已能自主设计并优化算法,性能超越人类专家。通过元学习和自动化研究范式(ADRS),AI在云成本优化、大模型推理加速等11个系统任务中取得突破性成果:节省26%云端成本、将负载均衡速度提升5倍、优化SQL查询效率3倍。这种"AI生成-验证"的闭环研究模式正重塑科研流程,使研究人员转向更高层次的问题定义和战略指导。随







