victory0431 个人主页

@victory0431

victory0431

2022-12-25 14:34:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型后训练学习计划 02 verl llamafactory

verl是一个专注于大模型后训练的开源框架，特别强化学习(RLHF)领域具有丰富实现。该框架支持多种强化学习算法(PPO、GRPO等)，集成工业级训练框架和推理引擎，兼容Hugging Face生态，提供分布式训练、高效推理等关键技术。学习路径建议从SFT基础开始，逐步深入RLHF训练，通过跑通示例、分析源码、复现论文来掌握核心技术。对于希望进入大模型领域的研究生，verl能帮助快速积累理论算法和

#学习

大模型后训练学习计划 02 verl llamafactory

#学习

大模型后训练学习计划 02 verl llamafactory

#学习

K8S containerd 打包镜像和部署流程和注意事项

本文摘要总结了containerd镜像存储与Kubernetes集成的关键信息：1) containerd镜像存储在/var/lib/kubernetes-storage/containerd目录下，包含内容存储、CRI配置等子目录；2) 通过crictl工具可执行镜像管理操作，包括查看(sudo crictl images)、拉取、删除和检查镜像；3) Kubernetes通过完整镜像引用(do

#kubernetes #容器 #云原生

K8S节点GPU插件plugin检测GPU排查问题办法

本文介绍了Kubernetes集群中GPU资源的检测与配置方法。首先通过containerd命令验证GPU插件是否正常工作，然后创建测试Pod运行nvidia-smi检测GPU可用性。详细说明了Pod配置、应用步骤及状态检查流程，包括节点污点管理、nvidia-device-plugin状态检查等关键配置。最后总结了GPU资源识别流程、常见问题排查方法和最佳实践，帮助用户确保GPU在K8S集群中被

#kubernetes #容器 #云原生

K8S因NFS挂载点问题崩溃和恢复操作流程以及挂载情况

摘要：本文记录了K8S和Containerd系统状态检查的全过程。检查发现K8S集群响应超时，kubelet运行但有错误，kube-apiserver和etcd处于CrashLoopBackOff状态。Containerd服务运行中存在访问权限问题。进一步检查显示kube-apiserver容器已退出，etcd容器也无法正常运行且无法连接。检查过程包含节点状态、服务日志、容器状态等多个维度的诊断，

#kubernetes #容器 #云原生

containerd的镜像快照数据库不一致问题解决办法 pause3.10

摘要：解决K8S中nfs-client-provisioner Pod创建失败问题。通过检查发现Containerd存储层存在不一致问题，采取以下措施：1）清理Containerd所有数据；2）统一配置swr.cn-north-4.myhuaweicloud.com/ddn-k8s/registry.k8s.io/pause:3.10.1镜像；3）重启containerd和kubelet服务。经过

#数据库 #kubernetes #容器

500GB 数据盘挂载记录 /var/lib/kubernetes-storage

本文记录了500GB新磁盘的配置全过程，从分区创建到最终目录结构规划，确保与原系统文件系统(xfs)保持一致性。操作步骤包括：1) 检查根目录文件系统信息；2) 创建500GB主分区/dev/vdb1；3) 使用xfs格式化；4) 挂载至/var/lib/kubernetes-storage目录；5) 配置fstab实现开机自动挂载。完成基础配置后，还创建了conda、pip、containerd

#kubernetes #贪心算法 #容器

progen2 docker镜像打包命令文档

ProGen2镜像的构建与运行指南：提供两种镜像构建方式（带日志输出和使用缓存加速）和两种运行模式（端口映射和Host网络模式），并包含容器管理命令（查看状态/日志、停止/删除容器）。注意事项强调构建前的文件准备、网络参数使用及日志保存，应用运行后可通过http://localhost:7862访问Gradio界面。

#docker #容器 #运维

在使用 scp 传输大文件时，为避免因连接超时导致传输中断

SCP传输大文件时，建议采用两种方法防止连接中断：1)使用scp -o ServerAliveInterval=60参数，每60秒发送心跳包保持连接；2)更推荐使用支持断点续传的rsync命令，配合SSH保持连接参数。另外，建议保持网络稳定，或使用FileZilla等图形工具传输。这些方法能有效避免大文件传输时因超时导致的中断问题。

#服务器

共 20 条

请选择