logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于Transformer的高效、低延时、流式语音识别模型

编者按:Transformer 模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。然而,虽然 Transformer 模型在语音识别领域有着更好的准确率,但在流式的...

#人工智能#计算机视觉#神经网络 +2
DeepSeek背后的数学:深入解析GRPO

来源:MLSys2024本文深入探讨群体相对策略优化(GRPO)背后的数学原理,这是驱动DeepSeek卓越推理能力的核心强化学习算法。我们将解析GRPO的工作原理、关键组成部分,以及它为何成为训练先进大规模语言模型的颠覆性技术。GRPO的基础什么是GRPO?群体相对策略优化(GRPO)是一种强化学习(RL)算法,专门设计用于增强大规模语言模型(LLM)的推理能力。与传统的RL方法不同,后者通常依

#人工智能
小米最新大模型成果!罗福莉担任通讯作者!

不过,除了上下文不一致,MoE架构还涉及到路由选择不一致的问题——按照传统的解决方案,即便是重复的上下文,每一次计算,模型还是要重新选专家、激活专家。有意思的是,就在今年9月DeepSeek登上《Nature》的时候,罗福莉也出现在了作者名单,不过是以“北京独立研究者”的身份。他们的想法是,既然对于对相同的上下文,MoE的路由结果应该一样,那干脆,把推理阶段的路由掩码和前缀KVCache一起缓存起

#人工智能
就在刚刚,GPT-5正式发布!已达博士水平,人人都能免费使用!

看到日程后GPT-5可以自动进行一些助理级工作,比如发现未回复的邮件等。在语音对话方面,现在不仅可以让GPT-5充当外语老师,还能定制语音、让GPT-5根据你的需求来灵活教学,比如调整语速。在写作方面,GPT-5相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,GPT-5看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5可能有不同的执行结果

#人工智能
智谱发布首个具备深度研究和操作能力的AI Agent

这是因为智能体任务往往涉及多轮复杂交互,32B的参数量使得 GLM-4-Air-0414 能快速执行复杂任务,为AI智能体的真正大规模落地应用提供了坚实基础。将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了对应的推理版本 GLM-Z1-Flash,在保留大部分效果的情况下。AutoGLM 沉思背后的模型,是我们全新推出的Agent大脑——沉思模型,即

#人工智能
下载量突破 22 万!MiniCPM-V 4.5 刚刚公布了最新技术报告!

尽管仅有 8B 参数规模,模型在视觉语言能力上超越了 GPT-4o-latest 等广泛使用的专有模型,以及 Qwen2.5-VL 72B 等强大的开源模型,成为 30B 参数以下性能最佳的开源多模态大模型。自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端

通义RAG团队开源LaRA框架: 模型越弱,RAG提升越猛?

来源:NLP前沿阿里通义RAG团队等提出RAG与长文本对比新框架,助力智能路由决策机制设计论文标题:LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs - No Silver Bullet for LC or RAG Routing论文地址:https://arxiv.org/abs/2502.09977开

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flas

18岁天才少年,登上Nature封面!

2022年加入DeepSeek,并参与了DeepSeek-Coder、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-V3、DeepSeek-R1等几乎所有重要项目的研发。年仅18岁的天才少年涂津豪作为作者之一,以实习生身份参与其中,他的故事从高中生到Nature作者,堪称励志传奇。凭借Claude的强大性能,结合Thinking Claude思维模式的加持,再配上强

vLLM 推理引擎的核心优化技术及其工作流程

这种方法巧妙地结合了两种并行策略:专家并行用来处理 MoE 层的巨大专家数量,而数据并行则用来高效地处理非专家层的计算,从而在保证高吞吐量的同时,支持超大规模的 MoE 模型。这种混合并行方法将模型的两个维度都进行了切分:流水线并行切分了模型的层(垂直方向),而张量并行切分了每一层的权重(水平方向),从而能够服务那些规模巨大的模型。All-reduce 是一种高效的通信操作,它能让所有设备上的部分

    共 270 条
  • 1
  • 2
  • 3
  • 27
  • 请选择