logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

小米大模型团队论文入选ACL 2025 SAC Highlights

作为在大模型与多模态 AI 方向持续探索的团队,小米不仅关注模型在文本领域的突破,也在语音、视觉等多模态方向进行深入研究,构建了覆盖大语言模型、多模态模型及智能体(AI Agent)的技术体系。随着大模型的应用场景扩充到长文本下,我们发现大模型需要从大量的上文中检索出关键信息,这种情况下过度依赖位置衰减可能限制模型的感知与外推能力。因此,我们提出了我们的位置编码方法HoPE,该方法从理论上打破了长

小米 Mi-BRAG 智能引擎:全模态文档问答与细粒度溯源的创新实践

强化的溯源能力提升了内容的可信度与多样性。然而,现阶段训练数据远不够,由于开源数据集的质量并不高,也并没有一套固定的上下文格式,因此团队自行搭建了一套用于数据获取及组织细化的语义分割的逻辑,具体构造数据流如下分为文档切分、问答对构造、数据合成、数据清洗、引入噪声、顺序增强等环节,其中噪声是通过在线检索的方式获取,这样获得的噪声片段更符合真实场景的分布。具体而言,通过精心设计的数据采样机制,在文档切

IJCAI 2025 | 小米 & 人大揭秘手机端侧大模型“高效学习术”,所需训练内存节约 40%

小米大模型团队希望更进一步,让 AI 学得更快、更省力,通过算法的创新,在更短的时间使用更少的“脑力”(内存和算力)达到好的训练效果。(2)在(优化效率,时间友好性)方面,我们探讨了注意力机制微调过程中的学习动态特性,并通过定理 2 证明:当微调过程中。小米大模型团队相信,通过不断的技术创新和优化,未来的智能设备将更加智能、更加贴心,为用户带来更加美好的生活体验。相当的效果,甚至可能更优。(1)在

#学习
ZipVoice:高效零样本语音合成模型

实验结果表明,ZipVoice和ZipVoice-Distill在具备更小参数量和更快推理速度的同时,在三个客观指标,即说话人相似度(SIM-o)、词错误率(WER)和UTMOS,以及两个主观指标(CMOS、SMOS)上都极具竞争力,达到了零样本语音合成模型的SOTA性能水平,同时显著减少了模型参数量,加快了推理速度。:为了保证训练数据质量,一方面采用了一系列人工设计的规则过滤掉ASR转写异常的语

小米大模型团队 2 篇论文被 NAACL 2025 录用

近日,NAACL 2025(Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics,简称 NAACL)正式公布论文录用结果。小米大模型团队共有 2 篇最新研究成果成功入选 NAACL 2025,且均被收录为主会长文。这两篇论文分别聚焦 GUI

EMNLP 2025 | 小米 5 篇论文被录用

然而,随着模型参数规模与 KV 缓存(Key-Value Cache)存储开销的增长,尤其在长上下文的理解与生成任务中,大语言模型对显存资源的需求显著上升,给资源受限环境中的实际部署带来了严峻挑战。以上工作主要由小米大模型团队完成,团队覆盖多模态感知、多模态生成、AI Agent、工程与产品等方向,成员主要分布在北京和武汉,既有来自清北复交中科院的优秀校友,也有来自微软、字节、阿里、腾讯、百度等大

小米汽车「前车识别」,开启智能 “知车” 时代

举个例子,当我们驾驶着小米 SU7 行驶在路上时,前方突然出现一辆造型炫酷的跑车,你刚冒出「这是哪家新出的神车」的念头,副驾的朋友直接对小爱同学进行了询问:“小爱同学,前面黄色的是什么车?同时,小米也会持续探索多模态大模型在各类产品上的应用落地,挖掘更多有趣的、好玩的功能,为用户生活带来更多惊喜互动。基于小米对用户需求的深度洞察,前车识别功能将冰冷的数据转化为可感知的艺术——它让驾驶者从枯燥的等待

#汽车
小米技术新突破!具身大模型 MiMo-Embodied 正式发布并全面开源

作为业界首个成功打通自动驾驶与具身智能的跨域具身基座模型,它实现了两大领域任务的统一建模,标志着通用具身智能研究从 “垂直领域专用” 向 “跨域能力协同” 迈出关键一步。为推动社会对通用具身智能范式的进一步探索,该模型现已全面开源。跨域能力覆盖:同步支持具身智能三大核心任务(可供性推理、任务规划、空间理解)与自动驾驶三大关键任务(环境感知、状态预测、驾驶规划),形成全场景智能支撑;通用视觉语言领域

Interspeech 2025 | 小米大模型团队 5 项音频技术成果入选国际顶会

小米始终坚持“技术为本”,在 AI 领域持续投入,构建了包括基座文本大模型、多模态大模型、AI Agent 智能体在内的全栈技术体系,其中声音领域覆盖大模型驱动的声音理解如语音识别、环境音感知,与语音合成、音乐创作等声音生成关键技术,相关成果现已赋能手机、汽车、音箱等几十个品类上千款智能设备。我们首先使用预训练的音频编码器从带噪语音中提取音频嵌入向量,然后通过一个简单的降噪编码器网络模型对这些嵌入

#音视频#语音识别#人工智能
小米开源声音理解大模型 MiDashengLM-7B

Dasheng-denoiser(https://github.com/xiaomi-research/dasheng-denoiser)是小米近期已开源并将在荷兰鹿特丹召开的国际会议 Interspeech 2025 上展示的降噪模型,它使用 Xiaomi Dasheng 从带噪语音中提取音频嵌入向量,然后通过一个简单的降噪编码器网络模型对这些嵌入做降噪处理,最后利用声码器由降噪后的嵌入向量得到

    共 87 条
  • 1
  • 2
  • 3
  • 9
  • 请选择