logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek开源周第四天|并行革命!三连开黑科技让大模型训练效率狂飙

双向流水线并行算法,实现计算和通信完全重叠。:专家并行负载均衡器。:分析 V3/R1 中计算与通信重叠的性能数据集。DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法,(Forward Pass)(模型处理输入数据)和Backward Pass)(模型更新权重)的计算 - 通信阶段完全重叠,同时减少了 "" (Pipeline Bubbles)—— 即计算设备的空闲等待时间,通

文章图片
#AIGC#人工智能#开源 +1
DeepSeek开源周第四天|并行革命!三连开黑科技让大模型训练效率狂飙

双向流水线并行算法,实现计算和通信完全重叠。:专家并行负载均衡器。:分析 V3/R1 中计算与通信重叠的性能数据集。DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法,(Forward Pass)(模型处理输入数据)和Backward Pass)(模型更新权重)的计算 - 通信阶段完全重叠,同时减少了 "" (Pipeline Bubbles)—— 即计算设备的空闲等待时间,通

文章图片
#AIGC#人工智能#开源 +1
一文讲透、不再混淆 AI Function Call 和 MCP Server

MCP Server和Function Calling代表着两种不同的AI交互范式,它们各有优势,适用于不同的应用场景.对于开发者而言,关键是要理解这两种方案的本质区别,根据任务复杂度、团队协作需求和安全隔离性综合选择。通过合理搭配,可以构建出高效、灵活的AI系统,释放大模型的最大潜力。

文章图片
#网络#服务器#AIGC +1
DeepSeek开源周第四天|并行革命!三连开黑科技让大模型训练效率狂飙

双向流水线并行算法,实现计算和通信完全重叠。:专家并行负载均衡器。:分析 V3/R1 中计算与通信重叠的性能数据集。DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法,(Forward Pass)(模型处理输入数据)和Backward Pass)(模型更新权重)的计算 - 通信阶段完全重叠,同时减少了 "" (Pipeline Bubbles)—— 即计算设备的空闲等待时间,通

文章图片
#AIGC#人工智能#开源 +1
DeepSeek技术系列之解析DeepSeek MOE

当全球AI竞赛陷入"万亿参数内卷"时,DeepSeek用仅557万美元训练成本打造出性能比肩GPT-4的模型。这背后隐藏着一个颠覆性事实:参数利用率比参数规模更重要。DeepSeek MoE通过架构层面的三重革新,将每个参数的价值挖掘效率提升300%,正在改写大模型的效率法则。

文章图片
#AIGC#人工智能
一文搞懂MCP协议|AI从单兵作战到团队协作的万能钥匙

MCP(模型上下文协议)是由AI公司Anthropic推出的开源协议,旨在统一大型语言模型(LLM)与外部数据源和工具之间的通信协议,标准化大型语言模型(LLM)与外部数据源、工具的交互方式。简言之,它像一套“交通规则”,让不同AI模型、工具和服务能用同一种“语言”对话,打破数据孤岛,实现动态协作。给大家举一个生活化的例子:想象你指挥一支乐队:小提琴手(语言模型)负责旋律,鼓手(图像模型)把控节奏

文章图片
#人工智能#AIGC
DeepSeek开源周第四天|并行革命!三连开黑科技让大模型训练效率狂飙

双向流水线并行算法,实现计算和通信完全重叠。:专家并行负载均衡器。:分析 V3/R1 中计算与通信重叠的性能数据集。DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法,(Forward Pass)(模型处理输入数据)和Backward Pass)(模型更新权重)的计算 - 通信阶段完全重叠,同时减少了 "" (Pipeline Bubbles)—— 即计算设备的空闲等待时间,通

文章图片
#AIGC#人工智能#开源 +1
盘点这8个MCP Server工具神器,拯救996职场打工人

8 个MCP server覆盖了代码管理、运维管理、文件处理管理、实时通信、网页抓取、项目协作管理等多个领域。如果你正寻找一种简洁高效的方法来增强应用功能,这些 MCP server无疑能够满足你的要求。你可以从中选择最符合自身需求的server,也可以多个工具进行组合使用。通过上述地址进一步了解或直接获取相应代码,体验这些强大工具,让你在工作中效率翻倍,从此告别无效加班!

文章图片
#AIGC#人工智能#开源
DeepSeek技术系列之解析DeepSeek蒸馏技术

数据蒸馏与模型蒸馏的结合,使得DeepSeek的蒸馏模型在推理基准测试中取得了显著的性能提升。蒸馏模型的参数量大幅减少,例如DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。通过从大模型中蒸馏知识,小模型在推理任务中的表现大幅提升,蒸馏后的模型在推理基准测试中表现出色,比如:DeepSeek-R1-Dist

文章图片
#AIGC#人工智能
盘点主流Multi-Agent智能体开发框架

从单智能体到多智能体系统(Multi-Agent System, MAS),开源社区涌现出多个颠覆性框架。面对众多的选项,选择一个最匹配自身需求的 Multi-Agent 框架成为了众多开发者与企业需要解决的关键问题

文章图片
#AIGC#人工智能
    共 17 条
  • 1
  • 2
  • 请选择