logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型运维

大模型运维框架,覆盖全流程,适配 GPU 集群 + Kubernetes 架构,可直接落地。

文章图片
#运维
规控算法(规划 + 控制算法)

这是 IT 规控算法最典型的落地场景,对应 “针对 AI 模型推理任务的。针对海量数据处理任务的。

文章图片
#算法#云计算#大数据
GPU运维常见问题处理

硬件故障是 GPU 运维中最直接的问题,通常表现为设备无法识别或运行异常,需优先排查物理层面问题。症状:可能原因:处理方法:症状:可能原因:处理方法:GPU 依赖驱动程序与系统、应用交互,驱动版本不匹配或配置错误是常见故障源。症状:可能原因:处理方法:症状:可能原因:处理方法:症状:可能原因:处理方法:GPU 性能未达预期(如算力低、利用率低)会直接影响业务效率,需从硬件、任务调度等层面排查。症状

文章图片
#运维#GPU#linux
在三台GPU服务器上部署分布式deepseek

通过以上步骤,即可在三台 GPU 服务器上实现 DeepSeek 的分布式部署,支持 7B/33B 模型的训练与推理,后续可根据需求调整节点数、GPU 数量及分布式策略(如增加节点扩展至更多 GPU)。分布式训练需主节点(Master)通过 SSH 无密码访问从节点(Worker),需配置三台服务器的 SSH 免密登录。避免多节点重复下载,建议在 Master 节点下载模型,通过 NFS 挂载或。

文章图片
#服务器#分布式#运维
大模型中常见的算法

自注意力:通过 Q/K/V 计算元素间关联,是 Transformer 的核心;MLM:通过掩码预测训练模型的上下文理解能力,是 BERT 等模型的基础;束搜索:平衡生成质量与效率,广泛用于文本生成任务;INT8 量化:通过降低精度减少资源占用,是大模型部署的关键优化手段。

文章图片
#算法#深度学习#pytorch
GPU算力优化

GPU(图形处理单元)算力优化是提升计算性能的重要任务,在深度学习、科学计算等领域有重要意义。下面从硬件层面、软件层面和算法层面为你介绍一些优化方法:以下是一个使用 PyTorch 在 GPU 上进行简单矩阵乘法的示例,展示了如何利用 GPU 加速计算:gpu-computation-optimizationGPU 矩阵乘法计算示例V1生成 gpu_matrix_multiplication.py

GPFS存储服务如何使用及运维

GPFS 的使用核心是 “客户端正确挂载 + 适配场景的参数优化”,运维核心是 “实时监控性能 + 自动化故障自愈 + 分层容量管理”。对于 AI 训练、HPC 等大规模场景,建议结合 GPFS 的并行特性(如调整数据分块大小匹配应用 IO 模式),同时通过 “存储池分层 + 灾备复制” 平衡性能、成本与数据安全。G。

文章图片
#运维#linux#服务器
CephFS存储文件系统介绍

CephFS(Ceph File System)是 Ceph 分布式存储系统提供的,核心优势是兼容 POSIX 接口、支持大规模扩展,并与 Ceph 的对象存储、块存储能力无缝整合,形成 “统一存储” 解决方案。它特别适合需要的场景(如 HPC 高性能计算、容器共享存储、大数据分析等)。

文章图片
大模型的原理是什么

数据:万亿级文本语料提供 “知识来源”(类似大数据平台的数据湖);架构:Transformer 提供 “高效学习骨架”(类似分布式系统的基础架构);训练:预训练 + 微调实现 “通用能力→专业能力”(类似系统从基础版到定制版的迭代);推理:向量映射 + 概率预测实现 “理解→生成”(类似模型的推理与输出过程)。

文章图片
#人工智能#算力#GPU
slurm部署

Slurm(Simple Linux Utility for Resource Management)是开源的高性能计算(HPC)资源管理与作业调度系统,广泛用于集群环境的 CPU、GPU 等资源调度。以下是。

文章图片
#GPU
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择