ipython_harley 个人主页

@ipython_fool

ipython_harley

2022-07-08 17:27:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI基石 | 对齐技术：从 RLHF 到 DPO —— 赋予大模型“三观”的终极进化

RLHF与DPO两种AI对齐技术解析：通过人类偏好数据训练奖励模型或直接优化，让大模型学会选择更符合人类价值观的回答。

#人工智能 #python

告别 Vibe Coding | 一文拆解 OpenClaw、Claude Code 背后的 AI Agent 五层全能架构

告别AI聊天时代，进入智能体时代。本文以五层架构（规则、决策、知识、执行、基础设施）拆解AI Agent如何从“裸脑”进化成能记忆、会检索、懂规范、用工具、有技能的“全能数字员工”，并厘清相关热门产品定位。

#人工智能

AI基石 | 微调黑科技：LoRA 与 PEFT —— 让大模型在你的显卡里“翩翩起舞”

LoRA通过训练少量低秩矩阵高效微调大模型，配合QLoRA量化技术，实现在消费级显卡上微调大模型。

#人工智能 #python

AI基石 | 大模型训练三部曲：预训练、SFT 与 RLHF —— ChatGPT 是如何炼成的？

文章摘要：大模型训练分为三个阶段：预训练：通过海量文本学习通识知识，但仅会文字接龙（如预测“床前明月光”的下一个词）；监督微调（SFT）：用人工编写的问答数据教会模型遵循指令（如将“你好”翻译成英文），使其从续写转为对话； RLHF：通过人类反馈（如DPO算法）对齐价值观，避免胡说或有害内容。实际应用中，普通人可通过LoRA技术微调开源模型（如Llama-3），仅调整1%参数即可适配特定任