logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【GitHub开源AI精选】DiaMoE-TTS:清华和巨人网络开源的多方言语音合成利器

DiaMoE-TTS 是一个基于国际音标(IPA)的统一框架,专门针对多方言语音合成的复杂性而设计。它在 F5-TTS 架构的基础上,引入了方言感知的混合专家(MoE)模型来模拟不同方言之间的语音差异,并利用低秩适配器(LoRA)和条件适配器进行参数高效的自适应,从而能够快速迁移到新的方言。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展的开放数据驱动合成,实验表明其能够生成自然

文章图片
#开源#人工智能#AIGC +1
【AI大模型前沿】SongBloom:腾讯AI Lab开源的全长度歌曲生成模型

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】SongBloom:腾讯AI Lab开源的全长度歌曲生成模型

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型,专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的“对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越了72B参数的

文章图片
#人工智能#语言模型#AIGC +1
【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。

文章图片
#人工智能#开源#AIGC +1
【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。

文章图片
#人工智能#开源#AIGC +1
【GitHub开源AI精选】Glyph:智谱与清华开源的视觉文本压缩框架,突破大模型上下文限制

Glyph 是一个通过视觉 - 文本压缩扩展上下文窗口的框架,它将长文本渲染为图像,利用视觉语言模型(VLM)处理图像,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。这种方法不仅大幅降低了计算成本和显存占用,还显著提升了推理速度,同时在多模态任务中展现出强大的泛化能力。

文章图片
#开源#人工智能#AIGC +1
【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率。基于 Qwen3 的语言模型,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。它在多

文章图片
#开源#人工智能#语言模型 +2
【GitHub开源AI精选】MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理

MineContext 是一个主动式上下文感知 AI 工具,它通过每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息,而非被动等待用户提问。它采用存储本地、分析云端的混合架构,包含元模型、采集器、存储层、更新引擎和接口层五个核心组件,以隐私优先,所有数据存储在本地,确保用户信息安全。

文章图片
#开源#人工智能#AIGC +1
【GitHub开源AI精选】StableAvatar:复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架

StableAvatar 是一个基于扩散变换器(Diffusion Transformer)的音频驱动视频生成技术框架。它能够根据一张人物图片和一段音频生成与音频高度同步的人物口型和表情的视频,且视频长度理论上可以无限延长。该技术框架通过其独特的架构和创新机制,解决了以往技术在生成长视频时的关键问题,显著提升了生成视频的自然度和连贯性。

文章图片
#开源#人工智能#语言模型 +2
    共 108 条
  • 1
  • 2
  • 3
  • 11
  • 请选择