抛物线. 个人主页

@qq_28513801

抛物线.

2022-06-24 21:16:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

linux 运行脚本时报错：语法错误: 未预期的文件结尾

在跑shell代码时遇到如下错误提示：行 175: 语法错误: 未预期的文件结尾。引用一位网友的话“shell不会对错误进行精确定位，而是在试图结束一个语句时进行错误统计。所以在shell打印出一个脚本错误后，不要只看那些疑问行，而是要观察整个相关代码段.运行一个脚本时报错：./begin_one_day.sh:行31: 语法错误: 未预期的文件结尾，但是我的脚本文件明明没有3...

基于LSTM的Prometheus数据预测平台:从理论到实践

这是一个基于LSTM深度学习模型的时间序列预测平台，能够从Prometheus监控数据中学习模式，预测未来的资源使用趋势。其实就是某个服务组件调优的过程，只是相对来说更加专业一些，涉及到更多的数学知识，不过在大模型的加持下，问题也不是很大。比如用最近12小时的数据预测未来6小时是否会写满或超过阈值，但当用户进行瞬时快写和快删操作时，预测就完全失效了，最终导致存储写满，训练任务无法提交。在云原生和微

#lstm #prometheus #运维开发

DeepSeek 3FS集群化部署临时笔记

节点管理IP25G_IPOS服务说明需要配置admin_cli需要配置admin_cli需要配置admin_cli需要配置admin_cli端口冲突：由于我是mgmtd服务和clickhost_server一起部署,会导致存在9000端口冲突，导致mgmtd无法启动问题解决方法：需要把clickhouse_server配置文件中的9000端口调整下，比如我这里调整为6000。

基于Django实现Linux运维管理平台的整个实现过程和各种API接口调用以及Echarts绘图项目介绍（一）记录点滴生活

基于Django实现Linux运维管理平台整个实现过程及各种API的调用以及Echarts绘图的使用介绍这是一个从后台到前端独自完成的自己的项目，虽然这两天刚加入的功能还没有完全实现，但是也差不多存在一些功能了。最近一段时间多个博客文章断断续续一直处于草稿状态，没有及时更新，是由于即将毕业进入社会实习并工作，想在简历上加上一个由自己独自完成的项目，这期间真是经历了酸甜苦辣咸------寂寞。...

基于IntelCAS加速的Glusterfs常见运维

Intel CAS全称是Intel cache acceleration software,这里是官方网站：http://www.intel.com/support/go/cas一、IntelCAS的使用这里是IntelCAS 的帮助文档。在搭配Intel自己的闪存产品时，这个软件没有cache的容量限制。如果使用其他品牌的闪存产品，则每个cache最大只能200GB。介绍下一个配置...

Ipmitool工具安装以及常见使用方法

Ipmitool工具安装以及常见使用方法（ Intelligent Platform Management Interface）参考手册：http://ipmitool.sourceforge.net/manpage.html最近一直在公司实习，目前用到过一个陌生的云物理机管理工具，也是OpenStack的插件IronicServer组件派生的管理工具。功能非常强大。操作起来也很方便，下面来逐..

Nerve：分布式基础设施智能管理平台的设计与实现

Nerve✅零依赖安装：Agent 是单一二进制文件，无需 Python 环境✅一键部署curl | sh即可完成 Agent 安装✅实时通信：基于 WebSocket 的双向实时通信✅完整监控：详细的硬件信息采集（CPU、内存、GPU、磁盘、网络、IPMI）✅任务执行：远程命令执行、脚本运行、Hook 插件系统✅水平扩展：设计支持 6000+ 台机器需求：需要执行自定义的监控脚本或工具解决方案：

#分布式

用 PyTorch 打造 AIOps 小体系：日志异常、指标预测与训练失败根因分析

Dockerfile 模板（各 demo 通用）：三个 Job 分别构建并推送三张镜像（见仓库README.md示例）Ansible：Docker 方式：拉取镜像，启动三容器，分别映射。systemd + venv 方式：无 Docker 内网环境的替代方案。K8s：提供 Deployment + Service 样例，直接上线到集群。详细文件与脚本在仓库README.md的“CI/CD + An

#pytorch #人工智能 #python

处理 NPU 张量构造的警告与错误的指南

在使用 PyTorch 进行深度学习开发时，时刻关注框架的更新，并根据最新推荐的 API 调整代码，能够避免很多潜在问题。对于 NPU 等硬件加速设备，确保设备配置正确并适配最新的 PyTorch API 是保证训练任务顺利进行的关键。分布式训练的复杂性较高，但通过合理的配置、有效的调试和详细的日志记录，可以逐步排除问题，确保模型训练的稳定性和高效性。

#python #深度学习

解决 PyTorch 中的 AttributeError: ‘NoneType‘ object has no attribute ‘reshape‘ 错误

这种错误通常出现在反向传播（backward）过程中，特别是在梯度计算时，表示某个中间变量的值为 None，而我们试图对其执行 reshape 操作。函数是 PyTorch 中的反向传播函数，负责计算损失函数相对于所有可训练参数的梯度。检查您的损失函数，确保它是一个标量。损失函数是计算梯度的基础，首先确保损失函数的计算是正确的，且返回一个有效的标量值。反向传播会从损失函数开始，逐步传播到每一层的参

#pytorch #人工智能 #python

共 39 条

请选择