logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

kimi写的hermes agent学习教程

全部完成!以下是交付总结。

#学习
kimi模拟autosota方案

不要试图复现 AutoSOTA 的完整 8-agent 系统(工程量太大,且核心代码未开源)重点投资 Claude Code 的 Skills 设计——这是你的「执行自动化」核心用 Kimi 做论文理解和策略制定——利用其长上下文优势用 Codex 做精准代码编辑——辅助 Claude Code 的批量操作从 AutoSOTA 的 105 篇优化报告中学习技巧——直接看那些,里面全是真实的改进案例

#学习#pytorch#深度学习
kimi写的hermes agent学习教程

全部完成!以下是交付总结。

#学习
InstructGPT_论文精读笔记

本文提出 InstructGPT,通过**人类反馈强化学习(RLHF)**的三阶段 pipeline(SFT → RM → PPO),将大语言模型的训练目标从"预测下一个词"调整为"遵循人类指令",使得 1.3B 参数的 InstructGPT 在人类偏好评测上战胜了 175B 的原始 GPT-3,同时提升了真实性和安全性。大型语言模型(LLM)通过在巨量互联网语料上进行预训练,展现出了强大的文本

#深度学习#人工智能
【豆包写的】二分类交叉熵损失函数(BCE Loss)详细推导

二分类任务中,每个样本的真实标签yyyy∈01y∈01y1y=1y1:样本属于正类;y0y=0y0:样本属于负类。模型的预测目标是输出样本属于正类的概率y\hat{y}y​0≤y≤10≤y​≤1由于概率的归一性,样本属于负类的概率为1−y1-\hat{y}1−y​。伯努利分布→似然函数→对数似然(简化)→负对数似然(损失)→结合Sigmoid求梯度。

#机器学习
windows IDE里kimi code问题修复

Git Bash 的/d/xxx只是"看起来"像 Linux 路径,Windows 版 Python 不吃这一套。给我 Windows 原生路径(D:\xxx或D:/xxx),或者用相对路径,就能完全避开这个问题。

#windows
InstructGPT_论文精读笔记

本文提出 InstructGPT,通过**人类反馈强化学习(RLHF)**的三阶段 pipeline(SFT → RM → PPO),将大语言模型的训练目标从"预测下一个词"调整为"遵循人类指令",使得 1.3B 参数的 InstructGPT 在人类偏好评测上战胜了 175B 的原始 GPT-3,同时提升了真实性和安全性。大型语言模型(LLM)通过在巨量互联网语料上进行预训练,展现出了强大的文本

#深度学习#人工智能
codex模拟autosota方案

我查了一下:AutoSOTA 论文把流程拆成三段:资源/目标设定、实验评估、反思/构想,并用 8 个专门 agent 协作;GitHub 仓库目前更像是“优化结果榜单 + 每篇论文的 OPTIMIZATION.md”,不是开箱即用的完整系统。等你已经连续优化了 3-5 篇论文,再考虑写调度 agent:自动排队实验、监控日志、失败重试、生成报告。项目结果页:https://tsinghua-fib

#学习#pytorch#深度学习
学习并复现minimind

是比较火爆的大模型开源项目,通过该项目能够学习到大模型除训练分词器的全流程:pretrain, sft, LoRA, RLHF, Agentic RL,十分适合想要对大模型进行二次开发做项目的初学者。本次实验平台为Nvidia 4090*2,显存48G(一共),CPU:32核,镜像:image-gpu-pytorch_20250820,Ubuntu 22.04.5 LTS,操作系统为Linux。该

#学习
学习并复现minimind

是比较火爆的大模型开源项目,通过该项目能够学习到大模型除训练分词器的全流程:pretrain, sft, LoRA, RLHF, Agentic RL,十分适合想要对大模型进行二次开发做项目的初学者。本次实验平台为Nvidia 4090*2,显存48G(一共),CPU:32核,镜像:image-gpu-pytorch_20250820,Ubuntu 22.04.5 LTS,操作系统为Linux。该

#学习
    共 16 条
  • 1
  • 2
  • 请选择