logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

BERT, GPT, Transformer之间的关系

想象你是一个翻译员,要把一句话从中文翻译成英文。你需要同时看句子里的每个词,理解它们之间的关系。就像一个超级翻译助手,它用“自注意力机制”(Attention)一次处理所有词,快速找出重要联系,比老式的翻译机(RNN)更快更聪明。Transformer 是 2017 年由 Vaswani 等人提出的神经网络架构(论文:《Attention is All You Need》),主要用于自然语言处理(

#bert#transformer
non-autoregressive sequence generation

Autoregressive(自回归):每一个输出依赖于前一个输出每一步的生成依赖前一个 token:$y_t \sim P(y_t | y_1, y_2, ..., y_{t-1})$无法并行解码,推理慢示例:Transformer、GPT并行生成,加速显著适合实时任务,如翻译、语音识别序列生成是指根据输入条件 x,生成输出序列 y = (y₁, y₂, ..., yₜ)。机器翻译:将一种语言翻

#深度学习#自然语言处理#人工智能
神经网络压缩

网络压缩是通过减少机器学习模型的参数数量和计算需求,使其更小、更高效的技术。大型模型(如多模态大模型)通常有数亿参数,计算成本高,难以在手机、机器人等设备上运行。压缩技术让这些模型“轻量化”,适合资源受限的环境。费曼式讲解想象你有一个超级大的行李箱,装满了衣服(模型参数),但你只能带一个小背包旅行(资源受限设备)。网络压缩就像整理行李,只带必需品,扔掉不重要的衣服,但还要保证你能应对各种场合(模型

#搜索引擎#百度
到底了