logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于LSTM的Prometheus数据预测平台:从理论到实践

这是一个基于LSTM深度学习模型的时间序列预测平台,能够从Prometheus监控数据中学习模式,预测未来的资源使用趋势。其实就是某个服务组件调优的过程,只是相对来说更加专业一些,涉及到更多的数学知识,不过在大模型的加持下,问题也不是很大。比如用最近12小时的数据预测未来6小时是否会写满或超过阈值,但当用户进行瞬时快写和快删操作时,预测就完全失效了,最终导致存储写满,训练任务无法提交。在云原生和微

文章图片
#lstm#prometheus#运维开发
DeepSeek 3FS集群化部署临时笔记

节点管理IP25G_IPOS服务说明需要配置admin_cli需要配置admin_cli需要配置admin_cli需要配置admin_cli端口冲突 : 由于我是mgmtd服务和clickhost_server一起部署,会导致存在9000端口冲突,导致mgmtd无法启动问题解决方法: 需要把clickhouse_server配置文件中的9000端口调整下,比如我这里调整为6000。

基于Django实现Linux运维管理平台的整个实现过程和各种API接口调用以及Echarts绘图项目介绍(一)记录点滴生活

基于Django实现Linux运维管理平台整个实现过程及各种API的调用以及Echarts绘图的使用介绍这是一个从后台到前端独自完成的自己的项目,虽然这两天刚加入的功能还没有完全实现,但是也差不多存在一些功能了。最近一段时间多个博客文章断断续续一直处于草稿状态,没有及时更新,是由于即将毕业进入社会实习并工作,想在简历上加上一个由自己独自完成的项目,这期间真是经历了酸甜苦辣咸------寂寞。...

文章图片
基于IntelCAS加速的Glusterfs常见运维

Intel CAS全称是Intel cache acceleration software,这里是官方网站:http://www.intel.com/support/go/cas一、IntelCAS的使用这里是IntelCAS 的帮助文档。在搭配Intel自己的闪存产品时,这个软件没有cache的容量限制。如果使用其他品牌的闪存产品,则每个cache最大只能200GB。介绍下一个配置...

Ipmitool工具安装以及常见使用方法

Ipmitool工具安装以及常见使用方法( Intelligent Platform Management Interface)参考手册:http://ipmitool.sourceforge.net/manpage.html最近一直在公司实习,目前用到过一个陌生的云物理机管理工具,也是OpenStack的插件IronicServer组件派生的管理工具。功能非常强大。操作起来也很方便,下面来逐..

Nerve:分布式基础设施智能管理平台的设计与实现

Nerve✅零依赖安装:Agent 是单一二进制文件,无需 Python 环境✅一键部署curl | sh即可完成 Agent 安装✅实时通信:基于 WebSocket 的双向实时通信✅完整监控:详细的硬件信息采集(CPU、内存、GPU、磁盘、网络、IPMI)✅任务执行:远程命令执行、脚本运行、Hook 插件系统✅水平扩展:设计支持 6000+ 台机器需求:需要执行自定义的监控脚本或工具解决方案:

#分布式
用 PyTorch 打造 AIOps 小体系:日志异常、指标预测与训练失败根因分析

Dockerfile 模板(各 demo 通用):三个 Job 分别构建并推送三张镜像(见仓库README.md示例)Ansible:Docker 方式:拉取镜像,启动三容器,分别映射。systemd + venv 方式:无 Docker 内网环境的替代方案。K8s:提供 Deployment + Service 样例,直接上线到集群。详细文件与脚本在仓库README.md的“CI/CD + An

#pytorch#人工智能#python
Anaconda与conda、pip与conda的区别

Python的崛起:随着Python在数据科学、机器学习、人工智能等领域的广泛应用,Python的包管理工具和环境管理工具也得到了大量开发者的关注。Anaconda、Conda和Pip作为其中的关键工具,各自有其独特的功能和适用场景。工具的重要性:选择合适的工具可以极大地提高开发效率,尤其是在多环境管理、依赖冲突解决等方面,理解这些工具的差异至关重要。定义:Anaconda是一个Python和R的

文章图片
#conda#pip
处理 NPU 张量构造的警告与错误的指南

在使用 PyTorch 进行深度学习开发时,时刻关注框架的更新,并根据最新推荐的 API 调整代码,能够避免很多潜在问题。对于 NPU 等硬件加速设备,确保设备配置正确并适配最新的 PyTorch API 是保证训练任务顺利进行的关键。分布式训练的复杂性较高,但通过合理的配置、有效的调试和详细的日志记录,可以逐步排除问题,确保模型训练的稳定性和高效性。

#python#深度学习
解决 PyTorch 中的 AttributeError: ‘NoneType‘ object has no attribute ‘reshape‘ 错误

这种错误通常出现在反向传播(backward)过程中,特别是在梯度计算时,表示某个中间变量的值为 None,而我们试图对其执行 reshape 操作。函数是 PyTorch 中的反向传播函数,负责计算损失函数相对于所有可训练参数的梯度。检查您的损失函数,确保它是一个标量。损失函数是计算梯度的基础,首先确保损失函数的计算是正确的,且返回一个有效的标量值。反向传播会从损失函数开始,逐步传播到每一层的参

文章图片
#pytorch#人工智能#python
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择