logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

文章图片
#开源#机器人#语言模型 +1
【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

文章图片
#开源#机器人#语言模型 +1
【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

文章图片
#开源#机器人#语言模型 +1
【AI大模型前沿】NeuTTS Air:Neuphonic打造的超拟真离线语音合成模型

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】NeuTTS Air:Neuphonic打造的超拟真离线语音合成模型

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】微软UserLM-8b:AI助手的逼真陪练,多轮对话精炼利器

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】微软UserLM-8b:AI助手的逼真陪练,多轮对话精炼利器

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】Ling-1T:蚂蚁集团开源万亿参数的高效推理非思考模型

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】Ling-1T:蚂蚁集团开源万亿参数的高效推理非思考模型

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确

文章图片
#人工智能#开源#语言模型 +1
【AI大模型前沿】Ming-UniAudio:蚂蚁集团开源的多功能统一语音大模型

Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,旨在通过统一的连续语音分词器 MingTok-Audio 和端到端的语音语言模型,实现语音理解、生成和编辑任务的高效融合。MingTok-Audio 基于 VAE 框架和因果 Transformer 架构,能够有效整合语义和声学特征,为语音理解和生成任务提供统一的表示。在此基础上,Ming-UniAudio 开发了一个端到端的语音语

文章图片
#人工智能#开源#语言模型 +1
    共 98 条
  • 1
  • 2
  • 3
  • 10
  • 请选择