logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (6)--- Rollout

OpenClaw-RL的rollout是被动rollout。而且,因为整篇系列是一个整体,所以有些概念的解读/学习会在不同的文章中出现,还请大家谅解。在Slime代码中,generate_rollout_openclaw()函数名用的是含义 1(执行rollout过程),返回的 RolloutFnTrainOutput(samples=...)是含义2(rollout的结果数据)。在 OpenCl

#microsoft
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (6)--- Rollout

OpenClaw-RL的rollout是被动rollout。而且,因为整篇系列是一个整体,所以有些概念的解读/学习会在不同的文章中出现,还请大家谅解。在Slime代码中,generate_rollout_openclaw()函数名用的是含义 1(执行rollout过程),返回的 RolloutFnTrainOutput(samples=...)是含义2(rollout的结果数据)。在 OpenCl

#microsoft
AI Agent 全日制30天速成|Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储(索引→文本元数据)百万级以内向量检索速度极快,适合学习阶段使用。

#人工智能#面试
AI Agent 全日制30天速成|Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储(索引→文本元数据)百万级以内向量检索速度极快,适合学习阶段使用。

#人工智能#面试
AI Agent 全日制30天速成|Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储(索引→文本元数据)百万级以内向量检索速度极快,适合学习阶段使用。

#人工智能#面试
AI Agent 全日制30天速成|Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储(索引→文本元数据)百万级以内向量检索速度极快,适合学习阶段使用。

#人工智能#面试
AI Agent 全日制30天速成|Day3 笔记

支持向量添加、批量入库、相似度TopK检索支持向量与原文映射存储(索引→文本元数据)百万级以内向量检索速度极快,适合学习阶段使用。

#人工智能#面试
[MAF的Agent管道详解-02]IChatClient管道如何完美连接大模型?

系统通过继承: 在不修改业务逻辑的前提下,透明地记录所有与AI模型的交互细节;:这是最强大的内置中间件。它拦截模型的回复,如果模型返回的是函数调用请求(Function Call),由它实施最终的调用,然后将结果反馈给模型,直到模型给出最终文本回复。我们可以使用它实现联网搜索查询数据库等自动化插件功能。FunctionInvokingChatClient将最重要的ReAct循环引入ChatClie

#microsoft#数据库
再次感谢梁文锋和DeepSeekV4,历史性的一天!

梁文锋说过,面临的问题从来不是钱,而是高端芯片被禁运。当然了,跟 Opus 4.6 的思考模式比还有差距,这个 DeepSeek 自己也承认了。它证明了一件事,华为的芯片,能跑世界顶级的大模型。对于股市有关注的朋友应该还有印象,去年V3开源的时候,一度英伟达的股价跌到了最低点,限于一些神秘规则,这里我不说太多。混合注意力架构,在100万token的场景下,推理算力只需要V3.2的27%,KV缓存只

#数据库
再次感谢梁文锋和DeepSeekV4,历史性的一天!

梁文锋说过,面临的问题从来不是钱,而是高端芯片被禁运。当然了,跟 Opus 4.6 的思考模式比还有差距,这个 DeepSeek 自己也承认了。它证明了一件事,华为的芯片,能跑世界顶级的大模型。对于股市有关注的朋友应该还有印象,去年V3开源的时候,一度英伟达的股价跌到了最低点,限于一些神秘规则,这里我不说太多。混合注意力架构,在100万token的场景下,推理算力只需要V3.2的27%,KV缓存只

#数据库
    共 12 条
  • 1
  • 2
  • 请选择