logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

slurm部署

Slurm(Simple Linux Utility for Resource Management)是开源的高性能计算(HPC)资源管理与作业调度系统,广泛用于集群环境的 CPU、GPU 等资源调度。以下是。

文章图片
#GPU
gpu服务器只安装nvidia,可以运行任务么

在配置好这些基础组件后,GPU服务器就可以用来运行各种依赖GPU加速的任务了,包括但不限于深度学习模型的训练和推理、大规模数据处理、复杂的科学计算等。综上所述,虽然仅安装NVIDIA显卡和相关驱动可以让GPU服务器运行任务,但为了充分发挥其性能,还需要进行一系列的配置和安装工作,包括安装CUDA和cuDNN等工具集。‌,但为了充分发挥GPU的计算能力,还需要进行一系列的配置和安装工作。首先,确保服

文章图片
#服务器#运维
StarRocks数据仓库

StarRocks 是一款,由字节跳动开源(2020 年开源,2023 年进入 Apache 孵化器),核心定位是 “实时数仓 + 湖仓一体”,专为 PB 级数据的快速查询、多维分析、实时报表等场景设计,广泛应用于互联网、金融、零售、政务等行业。

文章图片
#数据仓库
GPFS在GPU集群中的运维

GPU 作业(如深度学习训练)的 IO 模式多为。(如几 GB 的样本文件)或。GPU 集群的核心诉求是。

#运维#php#开发语言
GPU 服务器ecc报错处理

【代码】GPU 服务器ecc报错处理。

#服务器#运维#GPU
GPU网络运维

【代码】GPU网络运维。

#网络#运维#GPU
python速学

一、快速了解 Python 和 环境准备(一)Python 快速介绍Python 是一种 简洁、强大、易读 的编程语言,广泛应用于 Web 开发、数据分析、人工智能、自动化运维 等领域。它由 Guido van Rossum 在 1991 年设计,因其清晰的语法和强大的生态系统,迅速成为全球最受欢迎的编程语言之一。在 2017 年底,Stack Overflow 发布的数据显示,Python 已经

文章图片
#python#开发语言
IoTDB时序数据库

IoTDB(物联网数据库)是一体化收集、存储、管理与分析物联网时序数据的软件系统。Apache IoTDB采用轻量式架构,具有高性能和丰富的功能。IoTDB从存储上对时间序列进行排序,索引和chunk块存储,大大的提升时序数据的查询性能。通过Raft协议,来确保数据的一致性。针对时序场景,对存储数据进行预计算和存储,提升分析场景的性能。

文章图片
#iotdb#数据库#时序数据库 +1
大模型运维过程中常见的一些操作

1. 模型部署与环境配置 基础设施准备:部署 GPU 集群、TPU 等专用硬件,配置分布式计算环境(如 Kubernetes)。推理服务搭建:使用 Triton Inference Server、TensorFlow Serving 等框架部署模型,优化批处理和并发请求。量化与加速:应用 INT8 量化、TensorRT 加速推理,降低延迟和资源消耗。 2. 监控与告警 性能监控:实时跟踪模型响应

#运维#GPU
GPU集群运维

【代码】GPU集群运维。

#运维#人工智能
    共 84 条
  • 1
  • 2
  • 3
  • 9
  • 请选择