illuosion7 个人主页

@illuosion7

illuosion7

2023-02-03 21:53:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

kimi写的hermes agent学习教程

全部完成！以下是交付总结。

#学习

kimi模拟autosota方案

不要试图复现 AutoSOTA 的完整 8-agent 系统（工程量太大，且核心代码未开源）重点投资 Claude Code 的 Skills 设计——这是你的「执行自动化」核心用 Kimi 做论文理解和策略制定——利用其长上下文优势用 Codex 做精准代码编辑——辅助 Claude Code 的批量操作从 AutoSOTA 的 105 篇优化报告中学习技巧——直接看那些，里面全是真实的改进案例

#学习 #pytorch #深度学习

kimi写的hermes agent学习教程

全部完成！以下是交付总结。

#学习

InstructGPT_论文精读笔记

本文提出 InstructGPT，通过**人类反馈强化学习（RLHF）**的三阶段 pipeline（SFT → RM → PPO），将大语言模型的训练目标从"预测下一个词"调整为"遵循人类指令"，使得 1.3B 参数的 InstructGPT 在人类偏好评测上战胜了 175B 的原始 GPT-3，同时提升了真实性和安全性。大型语言模型（LLM）通过在巨量互联网语料上进行预训练，展现出了强大的文本

#深度学习 #人工智能

【豆包写的】二分类交叉熵损失函数（BCE Loss）详细推导

二分类任务中，每个样本的真实标签yyyy∈01y∈01y1y=1y1：样本属于正类；y0y=0y0：样本属于负类。模型的预测目标是输出样本属于正类的概率y\hat{y}y0≤y≤10≤y≤1由于概率的归一性，样本属于负类的概率为1−y1-\hat{y}1−y。伯努利分布→似然函数→对数似然（简化）→负对数似然（损失）→结合Sigmoid求梯度。

#机器学习

windows IDE里kimi code问题修复

Git Bash 的/d/xxx只是"看起来"像 Linux 路径，Windows 版 Python 不吃这一套。给我 Windows 原生路径（D:\xxx或D:/xxx），或者用相对路径，就能完全避开这个问题。

我查了一下：AutoSOTA 论文把流程拆成三段：资源/目标设定、实验评估、反思/构想，并用 8 个专门 agent 协作；GitHub 仓库目前更像是“优化结果榜单 + 每篇论文的 OPTIMIZATION.md”，不是开箱即用的完整系统。等你已经连续优化了 3-5 篇论文，再考虑写调度 agent：自动排队实验、监控日志、失败重试、生成报告。项目结果页：https://tsinghua-fib

#学习 #pytorch #深度学习

学习并复现minimind

是比较火爆的大模型开源项目，通过该项目能够学习到大模型除训练分词器的全流程：pretrain, sft, LoRA, RLHF, Agentic RL，十分适合想要对大模型进行二次开发做项目的初学者。本次实验平台为Nvidia 4090*2，显存48G（一共），CPU：32核，镜像：image-gpu-pytorch_20250820，Ubuntu 22.04.5 LTS，操作系统为Linux。该

#学习

学习并复现minimind

#学习

共 16 条

请选择