
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Fire-Flyer File System(3FS)是一个高性能分布式文件系统,旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供一个共享存储层,从而简化分布式应用程序的开发。

本文介绍了DeepSeek-R1系列推理模型的研究进展。DeepSeek-R1-Zero首次证明仅通过大规模强化学习(RL)即可显著提升模型推理能力,无需监督微调(SFT),在AIME 2024基准上pass@1分数从15.6%提升至71.0%。为改善其可读性问题,研究者进一步提出DeepSeek-R1,引入冷启动数据和多阶段训练流程(SFT+RL+拒绝采样),性能达到与OpenAI-o1-121

DeepEP 是由DeepSeek专为Mixture-of-Experts (MoE) 和专家并行 (Expert Parallelism, EP)设计的高效通信库。它提供了高吞吐量和低延迟的全对全(all-to-all)GPU内核,这些内核也被称为MoE分发(dispatch)和合并(combine)。该库还支持低精度操作,包括FP8。官方开源代码链接:https://github.com/de

SAM 2是一个能够处理图像和视频的统一模型,通过提示驱动的分割任务和流式记忆机制,在视频分割中减少交互次数并提高准确性,同时在图像分割中显著提升速度和精度。

FlashMLA是DeepSeek专为H架构的GPU设计的的高效MLA解码内核,优化了可变长度序列的多头潜在注意力机制。官方开源代码链接:https://github.com/deepseek-ai/FlashMLA

Omni-Scene: 采用 Omni-Gaussian 表示法,通过结合基于像素和基于体积高斯表示的优势,实现了以自我中心的稀疏视图场景下高保真的三维重建,并支持多模态三维场景生成。

FlashMLA是DeepSeek专为H架构的GPU设计的的高效MLA解码内核,优化了可变长度序列的多头潜在注意力机制。官方开源代码链接:https://github.com/deepseek-ai/FlashMLA

Fire-Flyer File System(3FS)是一个高性能分布式文件系统,旨在解决人工智能训练和推理工作负载的挑战。它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供一个共享存储层,从而简化分布式应用程序的开发。

DualPipe 是一种创新的双向流水线并行算法。它通过在流水线的两端同时注入微批次,实现了前向和反向传播的完全重叠,从而大幅减少了流水线空闲时间(Pipeline Bubble),显著提高了计算资源的利用率。EPLB(Expert Parallelism Load Balancer)则是一种专家并行负载均衡算法。通过冗余专家策略和分组限制专家路由,优化了专家并行(EP)中的负载分配,确保不同 G

DeepGEMM 是一个专为 NVIDIA Hopper 架构设计的高效 FP8 矩阵乘法库,支持普通和混合专家模型(MoE)分组矩阵乘法,通过简洁的实现和即时编译技术,实现了高性能和易用性。官方开源代码链接:https://github.com/deepseek-ai/DeepGEMM
