logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

UnityMAS-O:专用于多 agent 工作流训练的 RL 框架

现有 RL 框架(verl、OpenRLHF 等)本质上还是面向具体的策略模型做优化,工作流编排被当作环境搭建的一部分,使得每个多智能体系统都需要手工编排,训练难度较大,不同系统也难以做公平比较。UnityMAS-O 实现了一套真正面向多智能体工作流的训练流程,支持自定义的角色设置、模型拓扑结构,在多种任务和实验设置下都拿到了显著提升

文章图片
#人工智能#机器学习#深度学习 +2
CIPO:把失败的推理轨迹变成纠错教材

RLVR 中失败轨迹被统一惩罚是巨大的信息浪费。CIPO 通过纠错重放,让模型在看到自己错误的条件下重新生成答案,天然区分不同失败模式并提供差异化学习信号,无需任何外部标注

文章图片
#人工智能
05-13 · LLM 最新论文速览

多智能体 LLM 往往靠自然语言通信,虽然直观,但会带来额外 token 生成、prefill 开销和 KV cache 内存负担。本文提出 TFlow(Thought Flow),将发送方的隐藏状态编译为接收方专属的瞬时低秩 LoRA 权重扰动,而不是写入上下文。该方法在推理时实现实例级适配,不永久改模也不扩展文本上下文。用 3 个 Qwen3-4B agent 实验显示,TFlow 相比单一接

文章图片
#人工智能#机器学习#深度学习 +2
05-11 · LLM 最新论文速览

本文提出嵌入式语言流 ELF(Embedded Language Flows),将 diffusion/flow 模型直接用于连续 embedding 空间的语言生成。与主要在离散 token 上运作的现有 DLM 不同,ELF 几乎全程停留在连续空间,仅在最后一步借助共享权重网络映射为离散 token,因此能较容易迁移图像 diffusion 中成熟技巧,如 classifier-free gu

文章图片
#机器学习#人工智能#深度学习 +2
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文,简单有效

文章图片
#深度学习#人工智能#自然语言处理
    共 25 条
  • 1
  • 2
  • 3
  • 请选择