
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在混合专家系统(MoE)中,不平衡的专家负载将导致路由崩溃或计算开销增加。论文提出了一种无损平衡的训练策略(Loss-Free Balancing),通过偏差更新来调整每个专家的门控分数,实现了负载均衡,同时不引入干扰梯度。

如何提高大语言模型(LLM)的形式化数学证明能力?论文提出了一种基于LLM的形式数学证明器综合框架,整合了大规模数学预训练、形式化数学语料库构建、利用反馈来进行强化学习和蒙特卡洛树搜索。

多模态理解和视觉生成任务中的性能存在一定的冲突。论文提出了Janus-Pro模型,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。

如何通过强化学习(RL)提升大语言模型(LLM)的推理能力,特别是在没有监督数据的情况下,探索模型如何通过自我进化来发展推理能力?论文提出了DeepSeek-R1和DeepSeek-R1-Zero两个模型,展示了通过纯强化学习显著提升模型推理能力的可能性,并通过蒸馏技术将大模型的推理能力迁移到小模型上,显著提升了小模型的性能。

如何解决大语言模型(LLM)在训练和推理过程中的负载均衡和性能优化?论文提出了DeepSeek-V3模型,引入了无辅助损失的负载均衡策略和多令牌预测目标,显著提升了模型性能。

如何提高大语言模型(LLM)的形式化数学证明能力?论文提出了一种基于LLM的形式数学证明器综合框架,整合了大规模数学预训练、形式化数学语料库构建、利用反馈来进行强化学习和蒙特卡洛树搜索。

如何在分布式威胁环境下安全地部署可能生成错误输出的先进大语言模型(LLM)?论文提出了一种自适应部署策略,通过动态选择微协议和使用自适应宏协议来管理不可信模型的风险,从而在安全性和有用性之间取得平衡。

现有的多模态大语言模型(MLLM)在理解图像中物体间关系时存在的局限性,特别是缺乏大规模、多样化和高质量的基准数据集。论文提出了一个名为MMRel的大规模多模态关系理解基准,具有高多样性和高质量,旨在评估和提升MLLM在多模态任务中的关系理解能力。

如何提升大语言模型(LLM)在算术和数学问题上的推理能力?论文开发了一系列数学专用的大型语言模型Qwen2.5-Math,并通过自改进技术显著提升了这些模型在数学问题解决上的性能。

如何构建和优化大规模预训练模型以在编码任务中达到顶尖性能?论文提出了Qwen2.5-Coder系列模型,通过广泛的预训练和微调,使其在编码任务中表现卓越,同时开源了这些模型以促进相关领域的研究和创新。
