歌刎个人主页

@MnivL

歌刎

2023-11-09 17:13:16 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM，这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行，却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性，通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新，包括张量内存加速器和即时编译技术，以及针对 MoE 模型的专项优化。还提供了快速部署指南

#人工智能 #nlp #DeepSeek +1

DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

本文深入剖析了 DeepSeek 发布的 V3/R1 推理系统，该系统以 545% 的成本利润率和单节点 8,575 tokens/s 的吞吐量刷新大模型推理性能认知。其核心技术突破包括专家并行革命，通过多 GPU 分布专家提升吞吐量、优化内存与降低延迟；通信 - 计算重叠优化，利用双批次流水线减少通信延迟与 GPU 空闲时间；三级负载均衡体系，实现各阶段负载均衡。系统架构涵盖路由层、缓存系统等核

#人工智能 #AIGC #DeepSeek +1

消费级 PC 本地部署 DeepSeek-R1满血版 (671B)指南

当多数人还在惊叹 DeepSeek 破圈时，技术达人已在悄悄行动。你敢想象在普通消费级 PC 上，成功部署运行 DeepSeek-R1 671B 吗？这不再是天方夜谭。本文将带你深入探索这一技术奇迹，从模型选择、硬件需求剖析，到详细的部署步骤讲解，还有实测效果大揭秘。无论你是 AI 小白还是技术大神，都能从中找到乐趣与启发

#人工智能 #nlp #windows

DeepSeek开源周Day1：FlashMLA引爆AI推理性能革命！

DeepSeek 于 2025 年 2 月 24 日 9 点（北京时间）开源「FlashMLA」，引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化，上线 45 分钟获 400+ Star，3 小时突破 2.7k 星标。文中详细解析了其核心技术，包括硬件级优化、动态序列处理、开箱即用等亮点，对比了传统 MHA 和创新 MLA 的效率差异，阐述了 MLA 通过低秩变换实现知识共享，减少冗

#人工智能 #深度学习 #AIGC +1

DeepSeek开源周Day2：DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型（MoE）和专家并行（EP）场景设计，旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念，包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现，如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等，并提及

#人工智能 #AIGC #DeepSeek

DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

#人工智能 #AIGC #DeepSeek +1

DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

#人工智能 #nlp #DeepSeek +1

DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

#人工智能 #nlp #DeepSeek +1

DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

#人工智能 #nlp #DeepSeek +1

DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

本文聚焦 DeepSeek 开源周最后一天发布的 3FS 和 smallpond 项目。3FS 作为分布式文件系统，通过解耦式存储资源池、CRAQ 强一致性协议和无状态元数据服务，在存储性能上实现重大突破，实测读吞吐量达 6.6TiB/s，并在数据预处理等多个应用场景展现优势。smallpond 则是基于 DuckDB 和 3FS 的轻量级大数据处理框架，具备无状态计算范式、智能数据分片和混合执行

#人工智能 #nlp #深度学习

共 19 条

请选择