logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

05-11 · LLM 最新论文速览

本文提出嵌入式语言流 ELF(Embedded Language Flows),将 diffusion/flow 模型直接用于连续 embedding 空间的语言生成。与主要在离散 token 上运作的现有 DLM 不同,ELF 几乎全程停留在连续空间,仅在最后一步借助共享权重网络映射为离散 token,因此能较容易迁移图像 diffusion 中成熟技巧,如 classifier-free gu

文章图片
#机器学习#人工智能#深度学习 +2
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
使用频域变换轻松压缩kv-cache

在不调整位置编码的情况下轻松扩展大模型上下文,简单有效

文章图片
#深度学习#人工智能#自然语言处理
RelayLLM:token 级大小模型接力加速推理

不靠路由,大模型与小模型协作接力,兼顾准确性与成本效率

文章图片
#人工智能#深度学习#机器学习 +2
    共 24 条
  • 1
  • 2
  • 3
  • 请选择