
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
是字节跳动 Seed 团队发起、社区共同维护的 LLM 强化学习(RL/RLHF)训练框架。是论文的开源实现版本。框架特点:算法侧:支持 GRPO、PPO 等 RL 数据流/训练循环的搭建。工程侧:通过模块化 API 对接既有 LLM infra(如 FSDP、Megatron-LM、vLLM、SGLang 等)。多机多卡资源编排:官方的多机示例采用 Ray 集群方式启动 head/worker。
是字节跳动 Seed 团队发起、社区共同维护的 LLM 强化学习(RL/RLHF)训练框架。是论文的开源实现版本。框架特点:算法侧:支持 GRPO、PPO 等 RL 数据流/训练循环的搭建。工程侧:通过模块化 API 对接既有 LLM infra(如 FSDP、Megatron-LM、vLLM、SGLang 等)。多机多卡资源编排:官方的多机示例采用 Ray 集群方式启动 head/worker。
是字节跳动 Seed 团队发起、社区共同维护的 LLM 强化学习(RL/RLHF)训练框架。是论文的开源实现版本。框架特点:算法侧:支持 GRPO、PPO 等 RL 数据流/训练循环的搭建。工程侧:通过模块化 API 对接既有 LLM infra(如 FSDP、Megatron-LM、vLLM、SGLang 等)。多机多卡资源编排:官方的多机示例采用 Ray 集群方式启动 head/worker。
ModernBERT 是继BERT之后,一个新的Encoder-Only模型,在速度和准确性方面都比 BERT 系列实现了改进。该模型采用了近年来在大型语言模型 (LLM) 方面的数十项进展,并将它们应用于 BERT 风格的模型,包括对架构和训练过程的更新。

llamafactory涉及的微调参数一般包括以下这些,保存在yaml文件中bf16: 是否使用半精度浮点数bf16进行训练。bf16是一种低精度浮点数类型,好处是,可以减少内存使用并可能加速训练,但可能会降低模型性能,。在深度学习中,我们可以选择不同的数值精度来进行模型的训练和计算。不同的精度会影响计算资源的使用、训练速度和模型的精确度。下面我用更通俗的语言解释一下这些术语:FP16 (Half

llamafactory涉及的微调参数一般包括以下这些,保存在yaml文件中bf16: 是否使用半精度浮点数bf16进行训练。bf16是一种低精度浮点数类型,好处是,可以减少内存使用并可能加速训练,但可能会降低模型性能,。在深度学习中,我们可以选择不同的数值精度来进行模型的训练和计算。不同的精度会影响计算资源的使用、训练速度和模型的精确度。下面我用更通俗的语言解释一下这些术语:FP16 (Half

背景登录github时突然发现登录不上,显示enable two-factor authentication 2fa查了下资料发现很多人遇到这个情况,原来是 GitHub 用户现在需要启用 2FA 双因素身份验证作为附加的安全措施,您需要在2023年5月4日之前在您的帐户上启用双因素身份验证,否则将被限制进行帐户操作。解决方法这边参考了这边博主的文章,下载了Authentictor软件,然后扫描解








