logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

无法加载文件C:\Users\***\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本 是因为遇到了权限问题

以管理员身份运行PowerShell:右键点击 PowerShell 图标,选择“以管理员身份运行”,以获得更高的权限;在终端 get-ExecutionPolicy,如果输出 Restricted,就说明执行策略设置为过于严格,则可能阻止未签名的脚本运行。首先要确保 C:\Users***\Documents\WindowsPowerShell\profile.ps1 路径下的 script.p

文章图片
#windows
python的py文件(源码)进行加密为so文件(linux)

文章目录:1 准备环境2 调用Cython库包把python的.py文件生成.so文件2.1 写源码文件2.2 调用源码接口2.3 调用Cython库把.py源码生成.so文件常用的python加密方式第一种加密Python源代码的方式,是将.py文件转化为.pyc文件,但这种加密方式很容易被反编译,因此实用性并不高。第二种加密Python源代码的方式,是将.py文件转化为.so文件,这样加密的可

#python#linux#ubuntu
DeepSeek开源Day2:DeepEP技术详解

包含测试脚本,如 test_intranode.py(节点内测试)、test_internode.py(节点间测试)和 test_low_latency.py(低延迟测试),以及 utils.py(工具函数)。1)在调度过程中,(a)IB 发送、(b)IB 到 NVLink 转发、(c) NVLink 接收由相应的 warp 处理。2)在合并过程中,(1) NVLink 发送、(2)NVLink

文章图片
#开源
DeepSeek海豚本地部署保姆级教程

DeepSeek可以在网页端使用,但是有些时候可能不是很稳定,除了网页端,也能通过本地部署来使用。下面就一起来看看吧本地部署方法1. 在加速界面工具栏选择【一键本地部署】2. 选择适合您本地情况的相关内容进行安装3. 安装完成会自动打开对话框4. 此时我们可以直接在终端下提问,DeepSeek-R1会在终端下回答。

文章图片
DeepSeek开源Day5:3FS&smallpond技术详解

3FS 的设计初衷是为 DeepSeek 的 AI 基础设施(如 Fire-Flyer AI-HPC)和模型(如 DeepSeek-V3、R1)提供底层存储 + 数据支持。3FS 涵盖训练数据预处理、数据集加载、检查点保存与重载、嵌入向量搜索以及推理过程中的 KVCache(键值缓存)查找等环节。3FS 显然是 DeepSeek 高效训练体系的关键组件,进一步体现了 DeepSeek 的硬件基因。

文章图片
#开源
DeepSeek开源Day4:DualPipe&EPLB技术详解

DualPipe 的设计目标是最大化集群设备的计算性能,通过在前向传播(Forward)和后向传播(Backward)阶段实现计算与通信的完全重叠,显著减少传统流水线并行中的 “气泡”(Pipeline Bubble,即空闲等待时间)。这种方法在保持计算通信比例恒定的情况下,即使模型规模进一步扩大,也能维持接近零的通信开销。为保证 MoE 部分不同专家之间的负载均衡,会将共享专家和高负载的细粒度专

文章图片
#开源
DeepSeek开源Day3:DeepGEMM技术详解

包含测试脚本,如 test_intranode.py(节点内测试)、test_internode.py(节点间测试)和 test_low_latency.py(低延迟测试),以及 utils.py(工具函数)。1)在调度过程中,(a)IB 发送、(b)IB 到 NVLink 转发、(c) NVLink 接收由相应的 warp 处理。2)在合并过程中,(1) NVLink 发送、(2)NVLink

文章图片
#开源
DeepSeek开源Day2:DeepEP技术详解

包含测试脚本,如 test_intranode.py(节点内测试)、test_internode.py(节点间测试)和 test_low_latency.py(低延迟测试),以及 utils.py(工具函数)。1)在调度过程中,(a)IB 发送、(b)IB 到 NVLink 转发、(c) NVLink 接收由相应的 warp 处理。2)在合并过程中,(1) NVLink 发送、(2)NVLink

文章图片
#开源
DeepSeek开源Day1:FlashMLA技术详解

FlashMLA 是由 depseek-ai (深度求索)开发的一个开源项目,针对Hopper 架构GPU(例如 H100 或 H800)的高效的 MLA 推断(Inference)解码内核,旨在加速 MLA 机制的计算,特别适用于 DeepSeek 系列模型(如 DeepSeek-V2、V3 和 R1)。DeepSeek V3/R1 介绍(来源:中存算半导体)其中 MLA 是 DeekSeek

文章图片
#开源
大模型推理服务全景图

随着 DeepSeek R1 和 Qwen2.5-Max 的发布,国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。由于无论是训练还是推理,如何提升性能都是业内讨论最多的话题之一。为什么是性能呢?在大模型消耗计算资源多、客户端内容流式生成的场景下,性能显得尤为重要。推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性

文章图片
    共 12 条
  • 1
  • 2
  • 请选择