
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文全面记录了在华为昇腾 910B (65GB) * 8 上部署 DeepSeekR1 蒸馏系列模型(14B、32B)的全过程及测试结果。涵盖模型下载、权重转换、环境依赖安装、镜像拉取与启动、环境确认以及模型服务启动配置设置等环节。文中详细介绍了每一步的操作命令和注意事项,并对可能出现的问题提供了相应的解决方法和建议,为相关技术人员提供了完整且实用的部署参考。

当多数人还在惊叹 DeepSeek 破圈时,技术达人已在悄悄行动。你敢想象在普通消费级 PC 上,成功部署运行 DeepSeek-R1 671B 吗?这不再是天方夜谭。本文将带你深入探索这一技术奇迹,从模型选择、硬件需求剖析,到详细的部署步骤讲解,还有实测效果大揭秘。无论你是 AI 小白还是技术大神,都能从中找到乐趣与启发

DeepSeek 于 2025 年 2 月 24 日 9 点(北京时间)开源「FlashMLA」,引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化,上线 45 分钟获 400+ Star,3 小时突破 2.7k 星标。文中详细解析了其核心技术,包括硬件级优化、动态序列处理、开箱即用等亮点,对比了传统 MHA 和创新 MLA 的效率差异,阐述了 MLA 通过低秩变换实现知识共享,减少冗

本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型(MoE)和专家并行(EP)场景设计,旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念,包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现,如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等,并提及

本文深入剖析了 DeepSeek 发布的 V3/R1 推理系统,该系统以 545% 的成本利润率和单节点 8,575 tokens/s 的吞吐量刷新大模型推理性能认知。其核心技术突破包括专家并行革命,通过多 GPU 分布专家提升吞吐量、优化内存与降低延迟;通信 - 计算重叠优化,利用双批次流水线减少通信延迟与 GPU 空闲时间;三级负载均衡体系,实现各阶段负载均衡。系统架构涵盖路由层、缓存系统等核

本文详述大型语言模型(LLM)自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点,其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现,GPT-3 展示出少样本和零样本学习能力,但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起,同时开源模型发

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南

本文聚焦人工智能领域顶级会议 AAAI 2025,该会议于 2 月 25 日 - 3 月 4 日在美国费城举行,录用率 23.4%。会议公布的杰出论文奖成果显著。南京大学周志华团队等三篇论文获奖,还有一篇获 “AI 对社会影响特别奖”。获奖论文涵盖多智能体优化、神经符号推理等前沿方向,如周志华团队提出溯因反思框架解决神经符号推理冲突,多伦多大学优化算法降低多智能体匹配失真度等。这些研究不仅实现理论

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南
