logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

项目分享 | RLinf:专为模型后训练而设计的大规模强化学习框架

RLinf是一个开源、灵活的强化学习训练基础设施,专为VLA等大模型的后训练优化设计。它统一支持具身智能、数学推理、智能体训练等多场景,集成了主流模型、仿真器与算法。其创新架构实现了高效的分布式训练,在ManiSkill、LIBERO等基准上取得SOTA性能,显著降低了前沿RL研究的工程门槛。

文章图片
项目分享 | RLinf:专为模型后训练而设计的大规模强化学习框架

RLinf是一个开源、灵活的强化学习训练基础设施,专为VLA等大模型的后训练优化设计。它统一支持具身智能、数学推理、智能体训练等多场景,集成了主流模型、仿真器与算法。其创新架构实现了高效的分布式训练,在ManiSkill、LIBERO等基准上取得SOTA性能,显著降低了前沿RL研究的工程门槛。

文章图片
项目分享 | RLinf:专为模型后训练而设计的大规模强化学习框架

RLinf是一个开源、灵活的强化学习训练基础设施,专为VLA等大模型的后训练优化设计。它统一支持具身智能、数学推理、智能体训练等多场景,集成了主流模型、仿真器与算法。其创新架构实现了高效的分布式训练,在ManiSkill、LIBERO等基准上取得SOTA性能,显著降低了前沿RL研究的工程门槛。

文章图片
项目分享 | RLinf:专为模型后训练而设计的大规模强化学习框架

RLinf是一个开源、灵活的强化学习训练基础设施,专为VLA等大模型的后训练优化设计。它统一支持具身智能、数学推理、智能体训练等多场景,集成了主流模型、仿真器与算法。其创新架构实现了高效的分布式训练,在ManiSkill、LIBERO等基准上取得SOTA性能,显著降低了前沿RL研究的工程门槛。

文章图片
项目分享 | SurfSense:连接个人知识库的下一代AI研究助手

SurfSense是一款开源、可自托管的AI研究助手与知识库平台。它不仅能像Perplexity一样进行联网搜索并返回引用,更能深度集成Notion、GitHub、Gmail等数十种外部工具,将个人知识库与全网信息打通。支持50+文件格式、高级RAG技术,并能20秒内将对话转为播客,是构建私有化“超级研究大脑”的强大工具。

文章图片
#人工智能
项目分享|Tabby:打造你自己的智能代码补全服务

Tabby是一款开源、自托管的AI编程助手,提供媲美GitHub Copilot的代码补全、上下文聊天及知识问答功能。它支持消费级GPU,无需云端依赖,保障代码隐私,并具备企业级管理、多IDE集成和开放API,是企业构建自主、安全AI研发环境的理想选择。

文章图片
#开发者工具
项目分享|Tabby:打造你自己的智能代码补全服务

Tabby是一款开源、自托管的AI编程助手,提供媲美GitHub Copilot的代码补全、上下文聊天及知识问答功能。它支持消费级GPU,无需云端依赖,保障代码隐私,并具备企业级管理、多IDE集成和开放API,是企业构建自主、安全AI研发环境的理想选择。

文章图片
#开发者工具
项目分享|Tinker Cookbook:你的大模型微调实战宝典

Tinker Cookbook是由Thinking Machines Lab推出的开源大模型微调工具集,包含`tinker`训练SDK与`tinker-cookbook`示例库。它通过API封装了分布式训练复杂性,提供对话、数学推理、RLHF、工具调用等多场景“食谱”,极大降低了定制AI模型的门槛,是研究者与开发者进行高效模型调优的利器。

文章图片
#语言模型
项目分享|Tinker Cookbook:你的大模型微调实战宝典

Tinker Cookbook是由Thinking Machines Lab推出的开源大模型微调工具集,包含`tinker`训练SDK与`tinker-cookbook`示例库。它通过API封装了分布式训练复杂性,提供对话、数学推理、RLHF、工具调用等多场景“食谱”,极大降低了定制AI模型的门槛,是研究者与开发者进行高效模型调优的利器。

文章图片
#语言模型
项目分享|AIDungeon2——无限的冒险等待着你!

AIDungeon2是一款基于GPT-2模型微调的开源AI文本冒险游戏,能根据玩家自由输入无限生成剧情,提供在线、移动及本地部署多种体验。项目开源了完整的数据处理与模型微调代码,实现了从海量故事数据中学习叙事逻辑,标志着交互式叙事AI的重要突破,为研究与创作提供了强大平台。

文章图片
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择