logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm 推理引擎

vllm 和 ollama 仅LLM(大语言模型), tritonserver 其他模型ollama 上手快,快速验证,性能太差vllm 高吞吐,一个对话机器人能每秒应对几百人的提问。gpu 利用率也 高于其他引擎。

#人工智能
NVIDIA NCP(NVIDIA Cloud Accelerator Platform) 2026-6-18

规划好三套独立的资源域:采集层、消息层、存储层,建议分别用不同的 node pool 或 namespace 隔离,避免遥测系统自身抢占训练任务的资源。按热路径优先、冷路径其次的顺序上:先把"采集 → 网关 → Kafka → Prometheus/Loki/Tempo → Grafana"打通,能看实时监控和告警了,再补冷路径数据湖。这个是冷路径的底座,也是 Loki / Tempo 的后端,统

#运维
triton 2026-05-13

推理需要 2.5 GB,剩余 1.5 GB↓[CUDA 层] cudaMalloc 失败,返回 OOM 错误码↓[ONNX Runtime 层] 尝试 shrink arena,还是不够,抛异常↓[Triton backend 层] 这次推理标记失败;Triton 进程一般不崩↓[BLS 层] rec_pipeline 收到带 error 的 response↓[Ensemble 层] ocr_e

#人工智能#python#算法
Self-developed switch + network optimization + large model platform

主打自研网卡+自研交换机+TiTa协议的软硬一体全栈自研,适合追求超高通信效率、超大规模(10万卡)的极致训练集群。技术最激进,抛弃了传统网络拓扑,利用信元交换(DDC)实现了完美的负载均衡和纳秒级故障切换,解决了大模型训练最怕的“尾部延迟”和“作业中断”问题。走的是“底座网络 + 顶层平台”的双轮驱动。底层用磐久无损网络提供算力,上层通过百炼平台把这些算力包装成大模型能力卖给企业客户。

#运维
智算中心(AIDC)的建设和运维

带着“算力怎么塞进机柜(空间)”、“电怎么供得上(电力)”、“热怎么排得出去(散热)”、“挂了怎么远程修(运维)”这四个问题去看资料,你的进度会比盲目背参数快十倍。去看他们的高密度散热设计(特别是冷板式液冷)资料。“硅谷速度”,英伟达最新的通用基板(如 HGX H200/B200)他们总是最先推出整机。重点看他们针对大模型训练场景下的 PCIe 拓扑和智能运维管理软件(OM)资料。看厂商的 PDF

#运维
智算中心(AIDC)的建设和运维

带着“算力怎么塞进机柜(空间)”、“电怎么供得上(电力)”、“热怎么排得出去(散热)”、“挂了怎么远程修(运维)”这四个问题去看资料,你的进度会比盲目背参数快十倍。去看他们的高密度散热设计(特别是冷板式液冷)资料。“硅谷速度”,英伟达最新的通用基板(如 HGX H200/B200)他们总是最先推出整机。重点看他们针对大模型训练场景下的 PCIe 拓扑和智能运维管理软件(OM)资料。看厂商的 PDF

#运维
Network

机房里有 64 台 H100 服务器,每台 8 张 GPU、8 张 400G 网卡。网络架构是Spine-Leaf(不是传统的接入/汇聚/核心)采用:每台服务器的 GPU0 网卡都连到 Rail0 的 LeafUnderlay跑 eBGP,Overlay跑 VXLAN EVPN 给租户隔离Spine 到 Leaf 之间有 8 条等价路径,靠ECMP做负载均衡Spine 的 400G 口通过拆成 4

#网络
Network

机房里有 64 台 H100 服务器,每台 8 张 GPU、8 张 400G 网卡。网络架构是Spine-Leaf(不是传统的接入/汇聚/核心)采用:每台服务器的 GPU0 网卡都连到 Rail0 的 LeafUnderlay跑 eBGP,Overlay跑 VXLAN EVPN 给租户隔离Spine 到 Leaf 之间有 8 条等价路径,靠ECMP做负载均衡Spine 的 400G 口通过拆成 4

#网络
Monitoring 2026-04-30

三层防抖:Prometheus for 过滤瞬时抖动 → Alertmanager group_wait 聚合 → repeat_interval 防刷屏。如果上层应用同事反馈性能不达标【nccl-test】,或者loss有尖刺,监控偶尔发现xid 79掉卡问题【-r 3查】过了实时监控(防抖)和日常巡检这两关,只能说明表面上硬件没有问题。巡检只是那一瞬,深度是压测,时间长,能看出一段时间内有没有

#kubernetes
common problems+train+framework 2026-04-28

排查问题也可以写成一个 automated script.

#运维
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择