
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。#强化学习 #智能体 #学习资源。
The Smol Training Playbook: The Secrets to Building World-Class LLMs》由 Hugging Face 团队于 2025 年 10 月 30 日发布,详情见https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook,聚焦的训练实践,揭示了训练顶尖 LLM 的真实
原文:欢迎关注公zh: AI-Frontiers3月24日,谷歌在官方博客中推出革命性的压缩算法TurboQuant,相关内容将分别在 ICLR 2026和AISTATS 2026国际顶会发表。一经公布,引发了技术圈纷纷热议。更夸张的是,3月25日美股一开盘,存储芯片板块就集体迎来 「黑色时刻」,遭遇重挫。TurboQuant算法通过几何视角的向量量化手段,从根本上解决自回归推理中的「内存墙」难题

原文:欢迎关注公zh: AI-Frontiers自2023年生成式人工智能迎来爆发以来,LLM技术的发展已从单纯的堆训练数据、堆参数量,转向了架构效率、模态融合以及长上下文推理能力的深水区。在这场全球性的技术角逐中,阿里巴巴通义实验室推出的 Qwen(通义千问)系列模型,凭借其极其密集且高质量的开源迭代节奏,构建了一个庞大生态系统,覆盖了从端侧微型模型到云端巨型旗舰、从纯文本处理到全模态实时交互。

在上一篇中,我们重点讨论了LLM训练技术的开源框架,并未涉及LLM训练的其他环节。在人工智能领域从模型中心化向数据中心化范式转移的背景下,LLM的成功不仅依赖于模型参数规模的爆炸式增长,更取决于全链路工程化的精细程度。这一链路涵盖了从海量异构数据的精炼、超大规模分布式环境下的模型训练、特定任务驱动的指令微调,到最终模型输出与人类价值观对齐的RLHF阶段。如近的开源生态系统已涌现出一批高性能、模块化
原文:关注公zh: AI-Frontiers论文标题:mHC: Manifold-Constrained Hyper-Connections论文地址:https://arxiv.org/pdf/2512.24880延续在节假日搞事情的习惯,2026年元旦期间,Deepseek发表了一篇新论文,提出了名为mHC(Manifold-Constrained Hyper-Connections,流形约束超

本篇教程大致介绍 Legged Gym 的结构,使用方法,并以一个二阶倒立摆为例来完成一次实际的强化学习训练。适合强化学习初学者复现。文档包含 ①强化学习基本概念 ②Legged Gym 环境安装 ③Legged Gym 代码结构介绍 ④二阶倒立摆训练项目代码解读。#强化学习 #智能体 #学习资源。
本篇从底层原理出发,以 Next Token Prediction 为核心,拆解了 LLM API 核心参数的作用:从 Linear Layer、 Softmax 函数出发,系统解析了 temperature、top_p、frequency_penalty、presence_penalty 对概率分布的调控逻辑,以及 max_tokens、stop、n、best_of、stream 对生成流程与输

欢迎关注公zh: AI-Frontiers和大语言模型聊天的时候,你是不是也觉得,光会写提示词还不够?有时候模型答得乱七八糟,真不是你的问题。其实不管是直接用对话框,还是调API,有个小细节特别容易被忽略——配置参数。你可以把这些参数想象成模型身上的调节旋钮,拧对了地方,回答的质量一下子就上来了。反过来,要是完全不管,或者凭感觉乱拧,那结果可就真不好说了。假设将调用大模型比作烹饪美食,那么参数调优

欢迎关注公zh: AI-Frontiers。








