
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确

Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,旨在通过统一的连续语音分词器 MingTok-Audio 和端到端的语音语言模型,实现语音理解、生成和编辑任务的高效融合。MingTok-Audio 基于 VAE 框架和因果 Transformer 架构,能够有效整合语义和声学特征,为语音理解和生成任务提供统一的表示。在此基础上,Ming-UniAudio 开发了一个端到端的语音语








