
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
TRL是一个领先的Python库,旨在通过监督微调(SFT)、近端策略优化(PPO)和直接偏好优化(DPO)等先进技术,对基础模型进行训练后优化。TRL 建立在 🤗 Transformers 生态系统之上,支持多种模型架构和模态,并且能够在各种硬件配置上进行扩展。你可以使用Trl快速进行模型训练,同时使用SwanLab进行实验跟踪与可视化。是适配于Transformers的日志记录类。

PyTorch音频分类实战,完整代码+数据集+实验日志。音频分类任务是指将音频信号按照其内容的类别归属进行划分。例如,区分一段音频是音乐、语音、环境声音(如鸟鸣、雨声、机器运转声)还是动物叫声等。其目的是通过自动分类的方式,高效地对大量音频数据进行组织、检索和理解。

🚀 DQN实战:3分钟极速训练倒立摆控制模型 | 附完整代码+可视化训练;📌 核心技术亮点:DQN双剑合璧:融合深度神经网络与Q-Learning,通过经验回放打破数据关联性,目标网络稳定训练过程,解决高维状态空间难题;CartPole极简环境:4维状态空间+2个离散动作,完美契合入门级深度强化学习实战(附环境配置指南)

基于Bert模型的美团外卖评论数据集的文本情感分类,是自然语言处理领域的经典案例之一。这篇文章我将带大家使用 SwanLab、Transformers、datasets 三个开源工具,完成从数据集准备、代码编写、可视化训练的全过程。观察了一下,中文互联网上似乎很少有能直接跑起来的Bert训练代码和教程,所以也希望这篇文章可以帮到大家。

以Qwen2作为基座大模型,通过指令微调的方式实现高准确率的文本分类,是学习的入门任务。指令微调是一种通过在由(指令,输出)对组成的数据集上进一步训练LLMs的过程。其中,指令代表模型的人类指令,输出代表遵循指令的期望输出。这个过程有助于弥合LLMs的下一个词预测目标与用户让LLMs遵循人类指令的目标之间的差距。在这个任务中我们会使用模型在数据集上进行指令微调任务,同时使用SwanLab进行监控和

Unsloth是最近AI圈特别火的Python库,起因是DeepSeek R1带火了用GRPO(一种强化学习方法)来训练大模型,HuggingFace的TRL框架也在第一时间更新了GRPOTrainer。但在大家兴冲冲地启动训练时却发现,这显存占用也太高了,一般的显卡完全finetune不动呀!这个时候,Unsloth进入了大家的视野。它能够将Llama 3.3、Mistral、Phi-4、Qwe

阿里最新开源的Qwen3大模型登顶HuggingFace开源LLM榜首,成为开发者首选。本文手把手教你用全参数微调技术,基于Qwen3-1.7B和医学数据集打造能进行深度推理的医疗对话助手。通过transformers和SwanLab工具链,实现带思考链(类似DeepSeek R1)的专业回复生成,完整公开32GB显存适配代码、数据集处理技巧及过拟合解决方案。附实战训练日志可视化分析、模型

SwanLab在跟踪实验的过程中,会机器的硬件资源情况,并记录到当中。目前SwanLab已支持监控3款)的硬件资源情况,涵盖显卡利用率、显存占用率、显卡温度、显卡功率等指标。除此之外,SwanLab还支持监控等硬件资源情况。很开心,我们与昇腾计算团队合作,为训练师提供更多的国产算力使用体验。

DiffSynth Studio是推出的一个开源的扩散模型引擎,专注于图像与视频的风格迁移与生成任务。它通过优化架构设计(如文本编码器、UNet、VAE 等组件),在保持与开源社区模型兼容性的同时,显著提升计算性能,为用户提供高效、灵活的创作工具。DiffSynth Studio 支持多种扩散模型,包括 Wan-Video、StepVideo、HunyuanVideo、CogVideoX、FLUX

EasyR1是基于veRL的一个高效、可扩展、多模态强化学习LLM训练框架,由LLaMA Factory作者hiyouga打造,很很短的时间内获得了1.8k Star。EasyR1 受益于 veRL 的 HybridEngine 和 vLLM 0.7 的 SPMD mode,并适配了 Qwen2.5-VL 模型,在多模态几何题任务 Geometry3k 上通过 30 个 batch 的 GRPO
