小米技术个人主页

@pengzhouzhou

小米技术

2023-06-06 22:50:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

IJCAI 2025 | 小米 & 人大揭秘手机端侧大模型“高效学习术”，所需训练内存节约 40%

小米大模型团队希望更进一步，让 AI 学得更快、更省力，通过算法的创新，在更短的时间使用更少的“脑力”（内存和算力）达到好的训练效果。（2）在（优化效率，时间友好性）方面，我们探讨了注意力机制微调过程中的学习动态特性，并通过定理 2 证明：当微调过程中。小米大模型团队相信，通过不断的技术创新和优化，未来的智能设备将更加智能、更加贴心，为用户带来更加美好的生活体验。相当的效果，甚至可能更优。（1）在

#学习

强化学习展现“反直觉”优势——小米大模型团队登顶音频推理 MMAU 榜单

在同一时间，卡内基梅隆大学发布的论文预印本 “All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/abs/2503.01067) ”，通过精巧的实验得出了一个有趣的论断：当任务存在明显的生成-验证差距（Generation-Verification G

#音视频

小米语音首席科学家 Daniel Povey：语音识别卷完了，下一个机会在哪里？| 智者访谈...

多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊，以 Transformer 为代表的通用解决方案，正在重塑传统技术领域。在这个技术范式转变的关键时期，那些长期深耕细分领域的研究者又在思考什么？他们如何看待这种技术融合的趋势？本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音

#语音识别 #人工智能

ICML 2025 小米×武大｜UBMoE-LLM揭秘：双向微调，让AI既能懂也能说！

旨在在提升嵌入能力的同时减少后向依赖性对生成性能的损害。，以提升其在嵌入任务中的表现。在所有模型规模下，尽管不同层的微调策略在效果上略有差异，但仅微调 FFN 层或注意力层在文本相似度计算任务中均展现出稳健的性能。未来，我们团队将继续深化对混合专家结构的研究，探索更高效的训练策略，进一步降低对计算资源的需求，让更多设备（如手机、边缘计算设备）能够高效运行大语言模型。同时，我们也将进一步强化模型在隐

#人工智能

报名 | ICME 2025 音频编码器能力挑战赛正式开启

音频编码器是多模态大模型的重要组件，优秀的音频编码器在构建多模态系统中至关重要。在此背景下，小米集团、萨里大学、海天瑞声共同主办了 IEEE International Conference on Multimedia & Expo （ICME） 2025 Audio Encoder Capability Challenge。IEEE ICME 2025 会议将于今年 7 月在法国南特举办

#音视频

火热报名｜Interspeech 2026 第二届音频编码器能力挑战赛正式启动

参赛者并不需要自己运行 XARES-LLM，而只需把音频编码器按照一个简单的接口说明和示例封装，通过邮件发送给主办方即可，大模型的训练和评估由主办方完成。当然，由于 XARES-LLM 是开源的，且只需 GTX4090 即可完成训练和评估，参赛者也可以自行使用该系统训练大模型、评估待提交的编码器的性能，并和主办方提供的基线系统比较。我们设置了两个赛道，赛道 A 关注大模型处理传统分类任务、输出分类

#音视频

权威认证！小米 Mi-BRAG 荣获中国信通院可信 AI RAG 评估最高等级

Mi-BRAG是小米大模型团队自主研发的智能知识库问答框架，该框架通过四大核心技术体系重构知识处理范式，支持多场景定制化的智能知识问答技术方案。此次评估依据中国信通院发布的《检索增强生成技术要求与评估方法》标准进行，该标准体系覆盖RAG技术的两大核心能力（技术能力与应用能力）、六个关键能力子域及二十余项能力项。在25项能力评估中，Mi-BRAG表现亮眼，23项能力获得5分，尤其在。未来Mi-BRA

#人工智能

小米 AI 眼镜：以技术突破重构智能交互

但该需求实现存在困难，VPU 在播放时产生的振动会影响判断准确性，且单纯依靠 4 个麦克风构成的波束，因正常 4 个麦克风的波束宽度和衰减能力存在局限，大致只能覆盖 30 度范围，衰减 15-20dB，很难做到波束足够窄且衰减足够大（需大于 40dB）。云端大模型接收到端侧感知信息后，会结合用户意图，调用多垂类超千亿参数的多模态大模型，进行信息深度解析，对用户的意图进行分类和回答，使用户能以自然语

#人工智能 #重构

斩获《麻省理工科技评论》年度殊荣 | 小米汽车陈龙入选亚太区“35岁以下科技创新35人”

评委会在颁奖词中指出，陈龙博士的研究“为下一代辅助驾驶系统提供了新的发展范式，即从单纯由数据驱动的执行者，转变为能够像人类一样进行有效沟通和常识推理的可信赖的智能体”，其成果对推动辅助驾驶在真实场景中的落地具有积极意义。陈龙表示，道路交通本质上是为人设计的，其中包含了大量依赖常识与社交规则的行为场景，XLA 模型为辅助驾驶系统提供了理解沟通和推理思考的能力，使其不再是黑盒执行器，而是可交互、可解释

#科技 #汽车 #人工智能

从“手算”到“心算”：小米提出CoLaR算法，推理大模型效率提升53.3%

现在的大型语言模型（比如能做数学推理的 AI），常用一种 “思维链” 方法 —— 就像人类做题时在纸上写步骤一样，AI 会逐字生成中间推理过程，最后给出答案。概率化设计：区别于传统确定性方法，“隐变量头” 预测高斯分布的均值和方差（公式 2-3，图 2 左），通过重参数化技巧采样下一个隐变量，保留探索不同推理路径的能力。未来研究将聚焦模型根据问题的难度自主选择压缩率，甚至在推理过程中动态调整压缩率

#算法

共 81 条

请选择