
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文深入浅出地介绍了大模型中的Tokenizer(分词器)这一基础但关键的概念。文章首先澄清了大模型并不直接理解文字,而是通过Tokenizer将文本转换为数字ID(token序列)进行处理。随后详细解释了Token、Vocabulary、Token ID等核心概念,并分析了为何不能简单按单词切分(如词表爆炸、罕见词处理困难等问题)。重点讲解了子词切分(Subword Tokenization)的

文章摘要 本文从新手视角系统讲解Git与GitHub在深度学习项目中的使用。首先介绍了Git作为版本控制工具的核心功能,以及GitHub作为远程托管平台的作用。然后详细阐述了WSL Ubuntu环境下Git工作流程,包括本地项目目录、Git仓库与远程仓库的关系。针对深度学习项目特点,重点说明为何不应将数据集、模型权重等大文件上传至GitHub,并推荐使用.gitignore文件进行过滤。文章通过四

摘要 GPT-3论文《Language Models are Few-Shot Learners》开创性地展示了大规模语言模型通过上下文学习(In-Context Learning)的能力。研究表明,当模型参数量达到1750亿时,仅需在prompt中提供任务说明和少量示例(Few-shot),无需微调即可完成多种NLP任务。这种Decoder-only架构的Transformer模型通过单向注意力

摘要 本文为Windows用户提供了一套便捷的大模型开发环境配置方案,推荐使用WSL2+Ubuntu替代传统虚拟机和双系统。教程包含以下核心内容: 环境选择:解释为何Linux更适合大模型开发,推荐WSL2作为Windows下的轻量级解决方案 安装部署:详细指导WSL2和Ubuntu的安装步骤 空间优化:重点介绍将Ubuntu系统从C盘迁移到其他磁盘的方法,避免存储空间不足 环境配置:涵盖基础工具

本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地
本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地
本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地
摘要 GPT-3论文《Language Models are Few-Shot Learners》开创性地展示了大规模语言模型通过上下文学习(In-Context Learning)的能力。研究表明,当模型参数量达到1750亿时,仅需在prompt中提供任务说明和少量示例(Few-shot),无需微调即可完成多种NLP任务。这种Decoder-only架构的Transformer模型通过单向注意力

摘要 V2PE论文提出了一种改进视觉语言模型长上下文能力的新方法。研究发现,现有模型在处理长视频、多页文档等复杂输入时性能下降,主要原因是视觉token的位置编码方式不合理。传统方法对文本和视觉token采用相同的"+1"位置步长,导致视觉部分过快消耗位置预算。V2PE创新性地采用可变步长策略:文本token保持+1步长,视觉token使用更小的可变步长δ(如1/256)。这种方法在不减少toke

CLIP创新性地利用互联网图文对进行训练,通过对比学习将图像和文本映射到同一语义空间。相比传统固定类别的视觉模型,CLIP采用双编码器结构(ResNet/ViT+Transformer)和InfoNCE损失,实现开放词汇的zero-shot分类。关键设计包括特征归一化、温度系数调节和注意力池化等,解决了embedding爆炸等问题。实验表明模型规模扩大能显著提升性能,验证了大规模多模态预训练的可行








