
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RLHF与DPO两种AI对齐技术解析:通过人类偏好数据训练奖励模型或直接优化,让大模型学会选择更符合人类价值观的回答。

告别AI聊天时代,进入智能体时代。本文以五层架构(规则、决策、知识、执行、基础设施)拆解AI Agent如何从“裸脑”进化成能记忆、会检索、懂规范、用工具、有技能的“全能数字员工”,并厘清相关热门产品定位。

LoRA通过训练少量低秩矩阵高效微调大模型,配合QLoRA量化技术,实现在消费级显卡上微调大模型。

文章摘要: 大模型训练分为三个阶段: 预训练:通过海量文本学习通识知识,但仅会文字接龙(如预测“床前明月光”的下一个词); 监督微调(SFT):用人工编写的问答数据教会模型遵循指令(如将“你好”翻译成英文),使其从续写转为对话; RLHF:通过人类反馈(如DPO算法)对齐价值观,避免胡说或有害内容。 实际应用中,普通人可通过LoRA技术微调开源模型(如Llama-3),仅调整1%参数即可适配特定任

Transformer是GPT等大模型的核心架构,通过自注意力机制并行理解上下文,实现智能。

评估机器学习模型需超越准确率,掌握混淆矩阵、精确率、召回率、F1分数及ROC/AUC等多维度指标。

机器学习经典算法:逻辑回归、SVM、决策树详解与对比。

PyTorch利用GPU加速计算和自动微分,实现高效神经网络训练,是AI开发的核心框架。

NumPy向量化运算加速计算,Pandas处理真实数据,共同构建AI数据流水线。

本文深入探讨了AI处理不确定性的三大概率统计工具:分布模型、极大似然估计(MLE)和贝叶斯推理。首先,高斯分布作为核心分布模型,通过μ和σ描述数据的集中趋势与离散程度。MLE通过"眼见为实"原则,选择使观测数据概率最大的参数(如神经网络的损失函数)。








