十里溪桥樊宇新个人主页

@weixin_52235666

十里溪桥樊宇新

2025-06-11 20:00:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

一万五千字解析编码器预训练模型

编码器预训练学习摘要编码器预训练是Transformer的重要发展方向，通过大规模无标注文本训练通用文本理解模型，再迁移到下游任务。核心特点是使用Transformer Encoder生成上下文相关的动态词表示，解决传统静态词向量无法区分词语多义的问题。发展历程从Word2Vec/GloVe的静态词向量，到ELMo基于RNN的上下文词向量，再到BERT的双向Transformer编码器。BER

#transformer #深度学习 #人工智能

RLHF 概述：从人类反馈到大模型对齐

RLHF（Reinforcement Learning from Human Feedback）中文通常译为基于人类反馈的强化学习。它是一套用于大模型对齐（alignment）的训练流程，核心思想是：先让模型具备语言和指令跟随能力，再把人类对回答质量的偏好转化为奖励信号，最后用强化学习或偏好优化方法继续调整模型行为。重点：RLHF 不是单个算法RLHF 是一条训练管线，不等同于 PPO、奖励模型或

#人工智能 #transformer

PPO 原理与应用

PPO（近端策略优化）在RLHF（基于人类反馈的强化学习）中用于微调语言模型，使其更符合人类偏好。其核心机制是：通过奖励模型对生成回答打分，利用优势函数（实际奖励与预期奖励之差）调整生成概率，同时通过clipping限制单步更新幅度，并引入KL惩罚防止模型偏离原始SFT模型太远。PPO结合策略损失、价值损失和KL惩罚，在提升回答质量的同时保持模型稳定性，使其成为RLHF中的关键优化方法。

#深度学习 #人工智能 #机器学习

VLM（Vision-Language Model）视觉语言模型学习笔记

摘要视觉语言模型（VLM）是一种能够同时理解视觉和语言信息的多模态模型，旨在建立图像与文本之间的跨模态对齐关系。VLM的核心架构通常将视觉编码器与大语言模型结合，支持问答、推理等任务。本文从五个维度系统梳理VLM技术：1）概念与架构（如ViT、CLIP等模型）；2）训练方法（对比学习、图文匹配等）；3）典型模型（BLIP、LLaVA等）；4）推理部署（vLLM框架、量化技术等）；5）评测体系（V

#语言模型 #学习

到底了