logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

老码农和你一起学AI系列:Encoder-only 语言模型架构

摘要:Encoder-only架构是基于Transformer编码器的语言模型(如BERT),专精于自然语言理解任务。其核心是双向注意力机制,通过掩码语言建模预训练,为每个词元生成深度上下文表示。这类模型在文本分类、实体识别等任务上表现卓越,具有高效、精准的特点。ModernBERT等新模型通过长上下文支持、现代架构优化等升级,证明Encoder-only仍具生命力。与Decoder-only模型

文章图片
#人工智能
老码农和你一起学AI系列:大语言模型架构演变史

本文梳理了大语言模型架构的四个关键发展阶段:RNN/LSTM时代(2013-2017)解决了短视问题但受限于串行计算;Transformer革命(2017)通过自注意力机制实现并行计算和全局视野;三大架构分化期(2018-2020)形成Encoder-only(BERT)、Decoder-only(GPT)和Encoder-Decoder(T5)三种范式;大模型时代(2020至今)Decoder-

文章图片
#语言模型#架构#人工智能
openclaw 用例翻译笔记:Autonomous Educational Game Development Pipeline

摘要:本文介绍了一个自主教育游戏开发流水线项目,由一位父亲为3岁女儿开发无广告、高质量的游戏门户。为解决手动开发效率低的问题,项目采用"游戏开发智能体"自动管理游戏生命周期,遵循"BUG优先"策略,每7分钟可生成1款新游戏或修复。智能体按严格流程选择、实现、注册游戏,并自动完成Git工作流。核心提示词将LLM转变为遵循项目结构的开发者,优先处理bug并按规范

文章图片
openclaw 用例翻译笔记:Family Calendar Aggregation & Household Assistant

现代家庭需要在不同平台和格式间协调五个或更多日历——工作、个人、共享家庭、孩子学校、课外活动。因为不存在单一视图,重要事件容易遗漏。同时,家务协调(购物清单、食品库存、预约安排)通过分散的短信进行,而这些短信容易被淹没。此用例将 OpenClaw 转变为一个始终在线的家庭协调员:将日历聚合到早间简报中,监控消息以获取可操作项,并通过共享聊天界面管理家庭后勤。

文章图片
#人工智能
老码农和你一起学AI系列:三种架构对比

摘要:Transformer架构演化出三种主流模型范式:Encoder-only(如BERT)专注于文本理解,采用双向注意力;Decoder-only(如GPT)侧重文本生成,使用单向注意力;Encoder-Decoder(如T5)兼具理解与生成能力。它们在训练目标、适用任务和性能特点上存在显著差异:Encoder-only擅长分类/抽取任务,Decoder-only适合自由生成,Encoder-

文章图片
#人工智能#自然语言处理
老码农和你一起学AI系列:Decoder-only架构

摘要:Decoder-only架构是当前主流大语言模型的核心设计,仅保留Transformer的解码器部分,通过因果掩码实现自回归文本生成。其核心机制是预测下一个词,训练任务为NextTokenPrediction。相比其他架构,Decoder-only具有扩展性强、涌现能力突出、符合人类写作习惯等优势。现代改进包括RoPE位置编码、GQA注意力优化和MoE稀疏化等。代表性模型有GPT、LLaMA

文章图片
#人工智能#自然语言处理
老码农和你一起学AI系列:Encoder-Decoder架构

本文对比了Encoder-Decoder架构在训练和推理阶段的核心差异。训练阶段采用TeacherForcing机制,解码器可并行获取真实输出序列,利用标准答案辅助学习,提升训练效率和稳定性。推理阶段则转为自回归生成模式,解码器需串行工作,逐步生成输出。文章还分析了该架构与Decoder-only模型的区别,指出Encoder-Decoder通过独立编码器和交叉注意力机制,更适合输入输出差异大的任

文章图片
#学习
老码农和你一起学AI系列:关于Encoder-Decoder

摘要:文章将自然语言处理中的三种主要架构类比为不同角色:Encoder-only(如BERT)是"阅卷老师",Decoder-only(如GPT)是"作家",Encoder-Decoder则是"翻译官"。重点解析了Encoder-Decoder架构"先理解后表达"的工作机制:编码器双向理解输入,解码器通过注意力机制动态

文章图片
#人工智能
老码农和你一起学AI系列:Encoder-only的处理流程

数字化:文本 → Token → 向量 + 位置。深度理解:向量经过自注意力 + 前馈网络,变成富含语义的表示。任务适配:根据预训练或具体任务,在表示之上搭建不同的输出层。局限提醒:Encoder-only 做生成效率低、效果差,需要其他架构来补位。

文章图片
#人工智能
老码农和你一起学AI系列:关于Encoder

摘要:Encoder-only架构是仅保留Transformer编码器的模型,以BERT为代表,专注于文本理解而非生成。其核心优势在于双向注意力机制,能同时捕捉上下文信息,适用于分类、序列标注等自然语言理解任务。通过MLM和NSP预训练后,只需简单微调即可适配下游任务。相比Decoder-only模型,它推理更快但无法生成文本。典型改进模型包括RoBERTa、ALBERT等,在工业界广泛应用。该架

文章图片
#人工智能
    共 131 条
  • 1
  • 2
  • 3
  • 14
  • 请选择