logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Arch-Router-1.5B模型论文速读:使大型语言模型的路由与人类偏好保持一致

《Arch-Router: 基于人类偏好的LLM路由框架》提出了一个创新性的大语言模型路由系统。该研究针对现有路由方法的两大局限:评估标准与用户主观偏好的脱节,以及模型池扩展的困难,设计了一个偏好对齐的双层路由框架。通过Domain-Action分类法结构化和解耦路由策略与模型选择,支持用户用自然语言定义路由偏好。研究者开发了两阶段数据生成流程,构建了包含43,000样本的训练集,并训练出1.5B

文章图片
#语言模型#人工智能#自然语言处理 +1
基于强化学习的连贯长文本(写作)生成语言模型:LongWriter-Zero-32B

**摘要:**LongWriter-Zero是基于Qwen2.5-32B模型构建的强化学习文本生成系统,专攻超长连贯文本生成(10k+令牌)。通过300亿令牌的持续预训练和复合奖励函数(长度/写作/格式)优化,模型在WritingBench(8.69分)和Arena-Write(1447 Elo)基准测试中表现优异,超越多数开放模型。该研究为长文本生成中的连贯性控制提供了创新解决方案,适用于写作辅

文章图片
#人工智能#开源#语言模型
文生视频LTX-Video-13B量化版: ltxv-13b-0.9.7-dev-GGUF

本文介绍了一个基于 Lightricks/LTXVideo 的 13b-0.9.7-dev 变体模型的 GGUF 格式转换版本,适用于 ComfyUI 平台。该模型为量化模型,保留了原模型的所有限制和许可条款。使用说明包括基于官方示例工作流操作,需确保 ComfyUI 更新至最新版本,并注意与其他组件的兼容性,如 T5 剪辑、Lora 和 Teacache 的使用限制。建议禁用 Teacache

文章图片
#人工智能#深度学习#视频生成
HunyuanCustom:文生视频框架论文速读

HunyuanCustom 以 Hunyuan Video 生成框架为基础,通过引入基于 LLaVA 的文本 - 图像融合模块和图像 ID 增强模块,实现对文本和图像的交互理解,增强模型对身份信息的把握。此外,为支持音频和视频条件注入,分别设计了音频和视频的特定注入机制。

文章图片
#音视频#人工智能#算法
腾讯开源高一致性视频生成模型:HunyuanVideo-Avatar

腾讯提出的HunyuanVideo-Avatar模型基于多模态扩散变换器(MM-DiT),解决了音频驱动动画中角色一致性、情感对齐和多角色交互等挑战。模型核心创新包括字符图像注入模块确保角色一致性,音频情感模块实现精准情感控制,以及面部感知音频适配器支持多角色独立动画。该模型支持多种风格和尺度的头像输入,可生成高动态视频,适用于电商、直播等场景。模型提供多GPU、单GPU和低显存多种推理方式,通过

文章图片
#音视频#人工智能#算法 +2
腾讯开源歌曲生成模型:SongGeneration

SongGeneration模型基于LeVo框架开发,结合大规模语言模型(LeLM)和音乐编解码器,实现了高质量歌曲生成与多偏好对齐。模型通过混合令牌和双轨令牌处理音频,并转换为高保真音乐。当前提供中文基础版本,即将推出中英文版本。相较于其他开源模型,SongGeneration在音质和个性化需求满足方面表现优异,性能接近行业领先水平。

文章图片
#算法#人工智能#语言模型 +2
文本转语音 开原模型 orpheus 让声音更生动

文本转语音 开原模型 orpheus 让声音更生动。

#音视频#人工智能
RoboBrain2.0-7B模型论文速读:一种用于跨身体形态和多智能体协作的分层具身框架

RoboBrain2.0-7B模型论文速读:一种用于跨身体形态和多智能体协作的分层具身框架

文章图片
#语言模型#人工智能#开源 +2
文本到语音生成模型:Nari Labs的Dia-1.6B模型详解

Dia是由Nari Labs开发的一个拥有1.6B参数的文本到语音模型。该模型能够直接从剧本生成高度逼真的对话,并且可以通过音频条件控制情感和语气。此外,Dia还可以生成非语言交流,如笑声、咳嗽、清喉咙等。目前,该模型仅支持英语生成。

文章图片
#人工智能#语音识别
    共 205 条
  • 1
  • 2
  • 3
  • 21
  • 请选择