
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
小米大模型团队希望更进一步,让 AI 学得更快、更省力,通过算法的创新,在更短的时间使用更少的“脑力”(内存和算力)达到好的训练效果。(2)在(优化效率,时间友好性)方面,我们探讨了注意力机制微调过程中的学习动态特性,并通过定理 2 证明:当微调过程中。小米大模型团队相信,通过不断的技术创新和优化,未来的智能设备将更加智能、更加贴心,为用户带来更加美好的生活体验。相当的效果,甚至可能更优。(1)在
在同一时间,卡内基梅隆大学发布的论文预印本 “All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/abs/2503.01067) ”,通过精巧的实验得出了一个有趣的论断:当任务存在明显的生成-验证差距(Generation-Verification G
多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音
旨在在提升嵌入能力的同时减少后向依赖性对生成性能的损害。,以提升其在嵌入任务中的表现。在所有模型规模下,尽管不同层的微调策略在效果上略有差异,但仅微调 FFN 层或注意力层在文本相似度计算任务中均展现出稳健的性能。未来,我们团队将继续深化对混合专家结构的研究,探索更高效的训练策略,进一步降低对计算资源的需求,让更多设备(如手机、边缘计算设备)能够高效运行大语言模型。同时,我们也将进一步强化模型在隐
音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo (ICME) 2025 Audio Encoder Capability Challenge。IEEE ICME 2025 会议将于今年 7 月在法国南特举办
参赛者并不需要自己运行 XARES-LLM,而只需把音频编码器按照一个简单的接口说明和示例封装,通过邮件发送给主办方即可,大模型的训练和评估由主办方完成。当然,由于 XARES-LLM 是开源的,且只需 GTX4090 即可完成训练和评估,参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能,并和主办方提供的基线系统比较。我们设置了两个赛道,赛道 A 关注大模型处理传统分类任务、输出分类
Mi-BRAG是小米大模型团队自主研发的智能知识库问答框架,该框架通过四大核心技术体系重构知识处理范式,支持多场景定制化的智能知识问答技术方案。此次评估依据中国信通院发布的《检索增强生成技术要求与评估方法》标准进行,该标准体系覆盖RAG技术的两大核心能力(技术能力与应用能力)、六个关键能力子域及二十余项能力项。在25项能力评估中,Mi-BRAG表现亮眼,23项能力获得5分,尤其在。未来Mi-BRA
但该需求实现存在困难,VPU 在播放时产生的振动会影响判断准确性,且单纯依靠 4 个麦克风构成的波束,因正常 4 个麦克风的波束宽度和衰减能力存在局限,大致只能覆盖 30 度范围,衰减 15-20dB,很难做到波束足够窄且衰减足够大(需大于 40dB)。云端大模型接收到端侧感知信息后,会结合用户意图,调用多垂类超千亿参数的多模态大模型,进行信息深度解析,对用户的意图进行分类和回答,使用户能以自然语
评委会在颁奖词中指出,陈龙博士的研究“为下一代辅助驾驶系统提供了新的发展范式,即从单纯由数据驱动的执行者,转变为能够像人类一样进行有效沟通和常识推理的可信赖的智能体”,其成果对推动辅助驾驶在真实场景中的落地具有积极意义。陈龙表示,道路交通本质上是为人设计的,其中包含了大量依赖常识与社交规则的行为场景,XLA 模型为辅助驾驶系统提供了理解沟通和推理思考的能力,使其不再是黑盒执行器,而是可交互、可解释
现在的大型语言模型(比如能做数学推理的 AI),常用一种 “思维链” 方法 —— 就像人类做题时在纸上写步骤一样,AI 会逐字生成中间推理过程,最后给出答案。概率化设计:区别于传统确定性方法,“隐变量头” 预测高斯分布的均值和方差(公式 2-3,图 2 左),通过重参数化技巧采样下一个隐变量,保留探索不同推理路径的能力。未来研究将聚焦模型根据问题的难度自主选择压缩率,甚至在推理过程中动态调整压缩率







