Panesle 个人主页

@weixin_52582710

Panesle

2022-12-15 11:20:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Arch-Router-1.5B模型论文速读：使大型语言模型的路由与人类偏好保持一致

《Arch-Router: 基于人类偏好的LLM路由框架》提出了一个创新性的大语言模型路由系统。该研究针对现有路由方法的两大局限：评估标准与用户主观偏好的脱节，以及模型池扩展的困难，设计了一个偏好对齐的双层路由框架。通过Domain-Action分类法结构化和解耦路由策略与模型选择，支持用户用自然语言定义路由偏好。研究者开发了两阶段数据生成流程，构建了包含43,000样本的训练集，并训练出1.5B

#语言模型 #人工智能 #自然语言处理 +1

基于强化学习的连贯长文本（写作）生成语言模型：LongWriter-Zero-32B

**摘要：**LongWriter-Zero是基于Qwen2.5-32B模型构建的强化学习文本生成系统，专攻超长连贯文本生成（10k+令牌）。通过300亿令牌的持续预训练和复合奖励函数（长度/写作/格式）优化，模型在WritingBench(8.69分)和Arena-Write(1447 Elo)基准测试中表现优异，超越多数开放模型。该研究为长文本生成中的连贯性控制提供了创新解决方案，适用于写作辅

#人工智能 #开源 #语言模型

文生视频LTX-Video-13B量化版： ltxv-13b-0.9.7-dev-GGUF

本文介绍了一个基于 Lightricks/LTXVideo 的 13b-0.9.7-dev 变体模型的 GGUF 格式转换版本，适用于 ComfyUI 平台。该模型为量化模型，保留了原模型的所有限制和许可条款。使用说明包括基于官方示例工作流操作，需确保 ComfyUI 更新至最新版本，并注意与其他组件的兼容性，如 T5 剪辑、Lora 和 Teacache 的使用限制。建议禁用 Teacache

#人工智能 #深度学习 #视频生成

HunyuanCustom：文生视频框架论文速读

HunyuanCustom 以 Hunyuan Video 生成框架为基础，通过引入基于 LLaVA 的文本 - 图像融合模块和图像 ID 增强模块，实现对文本和图像的交互理解，增强模型对身份信息的把握。此外，为支持音频和视频条件注入，分别设计了音频和视频的特定注入机制。

#音视频 #人工智能 #算法

腾讯开源高一致性视频生成模型：HunyuanVideo-Avatar

腾讯提出的HunyuanVideo-Avatar模型基于多模态扩散变换器(MM-DiT)，解决了音频驱动动画中角色一致性、情感对齐和多角色交互等挑战。模型核心创新包括字符图像注入模块确保角色一致性，音频情感模块实现精准情感控制，以及面部感知音频适配器支持多角色独立动画。该模型支持多种风格和尺度的头像输入，可生成高动态视频，适用于电商、直播等场景。模型提供多GPU、单GPU和低显存多种推理方式，通过

#音视频 #人工智能 #算法 +2

腾讯开源歌曲生成模型：SongGeneration

SongGeneration模型基于LeVo框架开发，结合大规模语言模型(LeLM)和音乐编解码器，实现了高质量歌曲生成与多偏好对齐。模型通过混合令牌和双轨令牌处理音频，并转换为高保真音乐。当前提供中文基础版本，即将推出中英文版本。相较于其他开源模型，SongGeneration在音质和个性化需求满足方面表现优异，性能接近行业领先水平。

#算法 #人工智能 #语言模型 +2

阿里通义万相2.1 Wan2.1-T2V-1.3B 测试记录

通义万象1.3B测试（文生视频）

#音视频 #人工智能

文本转语音开原模型 orpheus 让声音更生动

文本转语音开原模型 orpheus 让声音更生动。

#音视频 #人工智能

RoboBrain2.0-7B模型论文速读：一种用于跨身体形态和多智能体协作的分层具身框架

#语言模型 #人工智能 #开源 +2

文本到语音生成模型：Nari Labs的Dia-1.6B模型详解

Dia是由Nari Labs开发的一个拥有1.6B参数的文本到语音模型。该模型能够直接从剧本生成高度逼真的对话，并且可以通过音频条件控制情感和语气。此外，Dia还可以生成非语言交流，如笑声、咳嗽、清喉咙等。目前，该模型仅支持英语生成。

#人工智能 #语音识别

共 205 条

请选择