tsrigo 个人主页

@weixin_45574854

tsrigo

2023-04-22 16:53:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

手动添加 SSH 私钥到 ssh-agent 以解决Permission denied (publickey) 错误

摘要：在tmux中使用git push时出现认证失败，原因是tmux未继承ssh-agent环境变量，导致SSH密钥未加载。解决方案：1) 手动运行ssh-add加载私钥；2) 确保GitHub已添加对应公钥。经验：多会话工具需注意环境变量传递，多密钥需显式指定路径，推荐SSH+ssh-agent实现全局免密认证。（98字）

#ssh #运维

在无头 Linux 环境下配置 OpenClaw 浏览器的排障记录

在 Linux 终端下，直接使用包管理器安装的 Chromium 可能会受到系统沙盒机制（如 snap 的 AppArmor）的限制，导致 OpenClaw 无法调用。该模式属于“扩展中继模式”，需要人工在图形化界面的浏览器中点击插件才能建立连接。在无界面的 Linux 环境中，必须将其切换为 OpenClaw 自动托管的独立配置文件。安装完成后，需要告诉 OpenClaw 浏览器的确切位置，并开

#linux #运维 #服务器

打造通用的数学模型评测流水线：基于 Qwen2.5-Math 框架

最近师兄让评测下 Qwen3-8B 在 AIME 2024 上的性能，我感觉直接让大模型写代码可能会有问题，于是想找一些现成的框架，于是乎找到了 https://github.com/QwenLM/Qwen2.5-Math。虽然这个评测仓库是 Qwen2.5-Math 官方提供的，但其核心代码（适配自）实际上非常通用。它内置了 Mistral、DeepSeek-Math、InternLM 等多种模

#人工智能

【RL笔记】为什么行为克隆会失败？从分布偏移公式看误差累积

首先，我们需要定义误差的边界。假设我们训练好的策略网络πθ\pi_\thetaπθ在单步决策上的表现还不错，它的单步误差率被限制在ϵ\epsilonϵπθa≠π⋆s∣s≤ϵπθaπ⋆s∣s≤ϵ这意味着在任意时刻，智能体模仿专家动作出错的概率不超过ϵ\epsilonϵ（例如 1%），而做对的概率至少是1−ϵ1-\epsilon1−ϵ（例如 99%）。注意：幻灯片中划掉了一行for all s，

【RL笔记】为什么行为克隆会失败？从分布偏移公式看误差累积

打造通用的数学模型评测流水线：基于 Qwen2.5-Math 框架

#人工智能

关于指示函数

为了计算一整条轨迹τ\tauτμct∣μct∣：智能体随机检索到了一个案例（这是概率性的，可能是案例 A，也可能是案例 B）。pLLMat∣pLLMat∣：LLM 看了案例后，随机生成了一个动作（这是概率性的，LLM 每次输出可能不同）。IrtIrt：环境根据规则，确定地给出了奖励（没得选，必须按规则给）。IMt1IMt1：系统确定地把这次经历存入硬盘（没得选，必须存）。Pst1∣Pst

#算法 #人工智能

Data8 开荒记（环境配置与基本介绍）

data8的环境配置比较多内容，因此这是我配过的最久的一次环境，折腾了大概有五个小时吧，主要是网上的资料比较零散，特此将我的经历记录如下，节省后来人的时间。

#python #机器学习 #开发语言 +2

到底了