logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型不是直接读文字的:一文讲透 Tokenizer、BPE 和 SentencePiece

本文深入浅出地介绍了大模型中的Tokenizer(分词器)这一基础但关键的概念。文章首先澄清了大模型并不直接理解文字,而是通过Tokenizer将文本转换为数字ID(token序列)进行处理。随后详细解释了Token、Vocabulary、Token ID等核心概念,并分析了为何不能简单按单词切分(如词表爆炸、罕见词处理困难等问题)。重点讲解了子词切分(Subword Tokenization)的

文章图片
#语言模型#gpt-3#人工智能 +1
【新手向】WSL Ubuntu 下用 Git 管理项目并上传 GitHub:只上传代码,不上传数据集

文章摘要 本文从新手视角系统讲解Git与GitHub在深度学习项目中的使用。首先介绍了Git作为版本控制工具的核心功能,以及GitHub作为远程托管平台的作用。然后详细阐述了WSL Ubuntu环境下Git工作流程,包括本地项目目录、Git仓库与远程仓库的关系。针对深度学习项目特点,重点说明为何不应将数据集、模型权重等大文件上传至GitHub,并推荐使用.gitignore文件进行过滤。文章通过四

文章图片
#ubuntu#git#github
GPT-3论文精读-Language Models are Few-Shot Learners:GPT-3 如何把“大模型”推向 In-Context Learning 时代

摘要 GPT-3论文《Language Models are Few-Shot Learners》开创性地展示了大规模语言模型通过上下文学习(In-Context Learning)的能力。研究表明,当模型参数量达到1750亿时,仅需在prompt中提供任务说明和少量示例(Few-shot),无需微调即可完成多种NLP任务。这种Decoder-only架构的Transformer模型通过单向注意力

文章图片
#语言模型#gpt-3#人工智能
别再装虚拟机了!Windows 一键拥有 Linux 环境,并跑通你的第一个视觉大模型

摘要 本文为Windows用户提供了一套便捷的大模型开发环境配置方案,推荐使用WSL2+Ubuntu替代传统虚拟机和双系统。教程包含以下核心内容: 环境选择:解释为何Linux更适合大模型开发,推荐WSL2作为Windows下的轻量级解决方案 安装部署:详细指导WSL2和Ubuntu的安装步骤 空间优化:重点介绍将Ubuntu系统从C盘迁移到其他磁盘的方法,避免存储空间不足 环境配置:涵盖基础工具

文章图片
#windows#linux#语言模型
【论文精读】InstructGPT:从 GPT-3 到 ChatGPT,中间到底发生了什么?

本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地

#gpt-3#语言模型#自然语言处理
【论文精读】InstructGPT:从 GPT-3 到 ChatGPT,中间到底发生了什么?

本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地

#gpt-3#语言模型#自然语言处理
【论文精读】InstructGPT:从 GPT-3 到 ChatGPT,中间到底发生了什么?

本文介绍了InstructGPT如何通过人类反馈微调语言模型,使其输出更符合用户意图。核心方法分为三步:首先用人工标注的高质量答案对GPT-3进行监督微调(SFT);然后训练奖励模型(RM),通过人类对多个回答的排序学习偏好;最后使用近端策略优化(PPO)算法,让语言模型根据RM的分数不断优化输出。这种SFT+RM+PPO的范式解决了GPT-3仅追求文本续写而忽视用户真实需求的问题,使模型能更好地

#gpt-3#语言模型#自然语言处理
GPT-3论文精读-Language Models are Few-Shot Learners:GPT-3 如何把“大模型”推向 In-Context Learning 时代

摘要 GPT-3论文《Language Models are Few-Shot Learners》开创性地展示了大规模语言模型通过上下文学习(In-Context Learning)的能力。研究表明,当模型参数量达到1750亿时,仅需在prompt中提供任务说明和少量示例(Few-shot),无需微调即可完成多种NLP任务。这种Decoder-only架构的Transformer模型通过单向注意力

文章图片
#语言模型#gpt-3#人工智能
一文搞懂 V2PE:位置编码对视觉模型的影响——论文精度笔记(全)

摘要 V2PE论文提出了一种改进视觉语言模型长上下文能力的新方法。研究发现,现有模型在处理长视频、多页文档等复杂输入时性能下降,主要原因是视觉token的位置编码方式不合理。传统方法对文本和视觉token采用相同的"+1"位置步长,导致视觉部分过快消耗位置预算。V2PE创新性地采用可变步长策略:文本token保持+1步长,视觉token使用更小的可变步长δ(如1/256)。这种方法在不减少toke

文章图片
#计算机视觉#学习
Learning Transferable Visual Models From Natural Language Supervision 精读笔记(全)

CLIP创新性地利用互联网图文对进行训练,通过对比学习将图像和文本映射到同一语义空间。相比传统固定类别的视觉模型,CLIP采用双编码器结构(ResNet/ViT+Transformer)和InfoNCE损失,实现开放词汇的zero-shot分类。关键设计包括特征归一化、温度系数调节和注意力池化等,解决了embedding爆炸等问题。实验表明模型规模扩大能显著提升性能,验证了大规模多模态预训练的可行

文章图片
#人工智能
    共 18 条
  • 1
  • 2
  • 请选择