logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理,不再是“一根筋”

针对DeepSeek这类超大规模MoE模型的多机多卡推理场景中的通信挑战,华为团队提出了三项关键技术:FlashComm技术基于相同的集合通信逻辑替大模型推理中的AllReduce 通信算子,在不改变网络并行方式的前提下,充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排,实现通信数据量的降低和通信时延的优化,同时消除了计算流程中的冗余计算,进一步提升了网络端到端推理性。

文章图片
#人工智能#大数据#transformer +1
大模型推理,不再是“一根筋”

针对DeepSeek这类超大规模MoE模型的多机多卡推理场景中的通信挑战,华为团队提出了三项关键技术:FlashComm技术基于相同的集合通信逻辑替大模型推理中的AllReduce 通信算子,在不改变网络并行方式的前提下,充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排,实现通信数据量的降低和通信时延的优化,同时消除了计算流程中的冗余计算,进一步提升了网络端到端推理性。

文章图片
#人工智能#大数据#transformer +1
大模型相关术语和框架总结|LLM、MCP、Prompt、RAG等核心概念详解

大模型在今年的热度可以说是现象级的。从年初Deepseek ,Manus的爆火出圈到日常app中都能看到大模型的身影。这篇文章我们就来梳理一些关于大模型的术语,包括LLM、MCP、RAG、Agent、LangChain、vLLM、蒸馏等等。

文章图片
#深度学习#机器学习#人工智能
大模型相关术语和框架总结|LLM、MCP、Prompt、RAG等核心概念详解

大模型在今年的热度可以说是现象级的。从年初Deepseek ,Manus的爆火出圈到日常app中都能看到大模型的身影。这篇文章我们就来梳理一些关于大模型的术语,包括LLM、MCP、RAG、Agent、LangChain、vLLM、蒸馏等等。

文章图片
#深度学习#机器学习#人工智能
当红炸子鸡LoRA,是当代微调LLMs的正确姿势?

自 ChatGPT 掀起了大模型(LLM)风潮后,一大波 LLMs(GPT-4, LLaMa, BLOOM, Alpaca, Vicuna, MPT …) 百花齐放。知识问答、文章撰写、代码编写和纠错、报告策划等等,它们都会,也能够交互式地和你玩文字游戏,甚至还有些很有才的朋友将 LLM 作为交互的接口,同时连接到其它各种模态(e.g. 视觉 & 语音)的模型,从而创造了炸裂的多模态效果,炫~!这

文章图片
#transformer#人工智能
当红炸子鸡LoRA,是当代微调LLMs的正确姿势?

自 ChatGPT 掀起了大模型(LLM)风潮后,一大波 LLMs(GPT-4, LLaMa, BLOOM, Alpaca, Vicuna, MPT …) 百花齐放。知识问答、文章撰写、代码编写和纠错、报告策划等等,它们都会,也能够交互式地和你玩文字游戏,甚至还有些很有才的朋友将 LLM 作为交互的接口,同时连接到其它各种模态(e.g. 视觉 & 语音)的模型,从而创造了炸裂的多模态效果,炫~!这

文章图片
#transformer#人工智能
面试官问:Agent_的记忆模块是怎么实现的?

记忆模块的核心价值: 让模型具备“长期状态感”,从短期问答进化为真正的 Agent。两类核心机制: 短期记忆保上下文一致性,长期记忆保知识持续性。实现关键: 存储(Vector Store)+ 检索(Retrieval)+ 更新(Summarize)。工程取舍: 灵活与效率、容量与可控之间永远是平衡问题。面试启发: 会讲原理没用,能解释“为什么这样设计”才显得懂工程。

文章图片
#人工智能#transformer#面试
面试官问:Agent_的记忆模块是怎么实现的?

记忆模块的核心价值: 让模型具备“长期状态感”,从短期问答进化为真正的 Agent。两类核心机制: 短期记忆保上下文一致性,长期记忆保知识持续性。实现关键: 存储(Vector Store)+ 检索(Retrieval)+ 更新(Summarize)。工程取舍: 灵活与效率、容量与可控之间永远是平衡问题。面试启发: 会讲原理没用,能解释“为什么这样设计”才显得懂工程。

文章图片
#人工智能#transformer#面试
    共 504 条
  • 1
  • 2
  • 3
  • 51
  • 请选择