logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【RL】Soft Adaptive Policy Optimization(SAPO)

GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。难以取得较好平衡:剪切范围太窄 → 大量

文章图片
【RL】MiniMax-M1: CISPO + Lightning Attention

CISPO是2025年6月minimax提出,放到今天还是有价值的。CISPO强化学习:传统 PPO / GRPO 这类方法,在做 token 级 clipping 时,会把一些“低概率但很关键”的 token(这类token一般是反思、转折、纠错、重新检查等字符,类似思维拐点) 更新给压掉,如果都被clip掉,模型就不容易学会真正的长链反思。通过裁剪重要性采样权重而不是更新令牌来稳定训练,从而避

文章图片
【LLM】openclaw相关项目汇总(skills|应用)

一、openclaw用于表格分析二、领域openclaw skills三、openclaw安全四、生成学术海报五、OpenClaw Medical Skills六、论文自动生成七、搜索AI Search Hub八、自动分析论文九、使用RL增强OpenClaw能力十、openclaw记忆项目十一、相关厂商clawReference一、openclaw用于表格分析【openclaw用于表格分析项目】基

文章图片
【VLM】HopChain视觉语言推理多跳数据合成框架

【数据合成方案进展】讲得是多跳视觉语言推理数据合成框架,用于应对视觉语言模型(VLMs)在长思维链(CoT)推理中的错误累积以及大多数 RLVR 视觉语言训练数据缺乏全程依赖视觉证据的复杂推理链的问题。工作在《HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning》,https://arxiv.o

文章图片
【LLM】openclaw相关项目汇总(skills|应用)

一、openclaw用于表格分析二、领域openclaw skills三、openclaw安全四、生成学术海报五、OpenClaw Medical Skills六、论文自动生成七、搜索AI Search Hub八、自动分析论文九、使用RL增强OpenClaw能力十、openclaw记忆项目十一、相关厂商clawReference一、openclaw用于表格分析【openclaw用于表格分析项目】基

文章图片
【LLM】Claude Code使用指北

一、Claude CodeClaude Code 的核心不是"回答",而是一个反复循环的代理过程:```python收集上下文 → 采取行动 → 验证结果 → [完成 or 回到收集]↑↓CLAUDE.mdHooks / 权限 / 沙箱SkillsTools / MCPMemory```![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/d4b

文章图片
【MLLM】Agent-GUI之MobileAgent模型

提出了GUI-Owl-1.5,一个多平台的本地GUI代理模型,支持桌面、移动设备、浏览器等多种设备的自动化操作。通过Hybrid Data Flywheel、统一的代理能力增强和跨设备环境强化学习扩展,GUI-Owl-1.5在20多个GUI基准测试中取得了最先进的性能。开源发布GUI-Owl-1.5将推动GUI代理在多平台设备自动化中的应用。- 在 browser 这类更长程、更需要规划的任务上,

文章图片
【LLM】Vibe Coding时代下的代码思维

从 写代码的人,升级成 能定义问题、拆解系统、约束 AI、验收结果的人。既懂业务和系统,又能高效驾驭 AI,把模糊需求变成可靠交付。软件工程精力从传统的样板代码编写、基础CRUD/路由开发等低价值重复性工作,转向架构设计、隔离审计、策略规范、验证与监控等高价值的架构相关工作。从代码实现者,升级成系统设计者,练习四种能力:分层、接口、边界、变化点抽象。会写模块、设计模块关系、设计可演进的系统。文章目

文章图片
【LLM】LitBench:创意文本评估Benchmark

创意写作虽然主观,但仍然可以通过高质量的人类偏好数据训练出可靠的 reward model;而且这种专门训练的 reward model,比直接拿强闭源 LLM 当 judge 更准。做了一个专门评测创意写作 judge 的 benchmark:LitBench。数据来自 Reddit 的 r/WritingPrompts,本质上利用社区 upvote 作为“人类偏好”的弱监督信号。他们构建了:2

文章图片
【LLM】Openclaw测试评估PinchBench

评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:h

文章图片
    共 376 条
  • 1
  • 2
  • 3
  • 38
  • 请选择