logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南

本文全面记录了在华为昇腾 910B (65GB) * 8 上部署 DeepSeekR1 蒸馏系列模型(14B、32B)的全过程及测试结果。涵盖模型下载、权重转换、环境依赖安装、镜像拉取与启动、环境确认以及模型服务启动配置设置等环节。文中详细介绍了每一步的操作命令和注意事项,并对可能出现的问题提供了相应的解决方法和建议,为相关技术人员提供了完整且实用的部署参考。

文章图片
#人工智能#linux#nlp +2
消费级 PC 本地部署 DeepSeek-R1满血版 (671B)指南

当多数人还在惊叹 DeepSeek 破圈时,技术达人已在悄悄行动。你敢想象在普通消费级 PC 上,成功部署运行 DeepSeek-R1 671B 吗?这不再是天方夜谭。本文将带你深入探索这一技术奇迹,从模型选择、硬件需求剖析,到详细的部署步骤讲解,还有实测效果大揭秘。无论你是 AI 小白还是技术大神,都能从中找到乐趣与启发

文章图片
#人工智能#nlp#windows
DeepSeek开源周Day1:FlashMLA引爆AI推理性能革命!

DeepSeek 于 2025 年 2 月 24 日 9 点(北京时间)开源「FlashMLA」,引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化,上线 45 分钟获 400+ Star,3 小时突破 2.7k 星标。文中详细解析了其核心技术,包括硬件级优化、动态序列处理、开箱即用等亮点,对比了传统 MHA 和创新 MLA 的效率差异,阐述了 MLA 通过低秩变换实现知识共享,减少冗

文章图片
#人工智能#深度学习#AIGC +1
DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型(MoE)和专家并行(EP)场景设计,旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念,包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现,如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等,并提及

文章图片
#人工智能#AIGC#DeepSeek
DeepSeek开源周Day6:DeepSeek V3、R1 推理系统深度解析,技术突破与行业启示

本文深入剖析了 DeepSeek 发布的 V3/R1 推理系统,该系统以 545% 的成本利润率和单节点 8,575 tokens/s 的吞吐量刷新大模型推理性能认知。其核心技术突破包括专家并行革命,通过多 GPU 分布专家提升吞吐量、优化内存与降低延迟;通信 - 计算重叠优化,利用双批次流水线减少通信延迟与 GPU 空闲时间;三级负载均衡体系,实现各阶段负载均衡。系统架构涵盖路由层、缓存系统等核

文章图片
#人工智能#AIGC#DeepSeek +1
从 Transformer 到 DeepSeek-R1:大型语言模型的变革之路与前沿突破

本文详述大型语言模型(LLM)自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点,其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现,GPT-3 展示出少样本和零样本学习能力,但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起,同时开源模型发

文章图片
#transformer#语言模型#深度学习 +3
DeepSeek开源周Day3:DeepGEMM-深度学习计算新标杆,300行代码释放FP8极致性能,全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南

文章图片
#人工智能#nlp#DeepSeek +1
AAAI 2025 杰出论文揭晓:顶尖AI研究聚焦多智能体优化、神经符号推理与生物多样性计算

本文聚焦人工智能领域顶级会议 AAAI 2025,该会议于 2 月 25 日 - 3 月 4 日在美国费城举行,录用率 23.4%。会议公布的杰出论文奖成果显著。南京大学周志华团队等三篇论文获奖,还有一篇获 “AI 对社会影响特别奖”。获奖论文涵盖多智能体优化、神经符号推理等前沿方向,如周志华团队提出溯因反思框架解决神经符号推理冲突,多伦多大学优化算法降低多智能体匹配失真度等。这些研究不仅实现理论

文章图片
#人工智能#AIGC#AI
DeepSeek开源周Day3:DeepGEMM-深度学习计算新标杆,300行代码释放FP8极致性能,全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南

文章图片
#人工智能#nlp#DeepSeek +1
DeepSeek开源周Day3:DeepGEMM-深度学习计算新标杆,300行代码释放FP8极致性能,全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南

文章图片
#人工智能#nlp#DeepSeek +1
    共 30 条
  • 1
  • 2
  • 3
  • 请选择