logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)

考研复试深度学习前沿技术解析:从ViT到多模态学习 本文聚焦考研复试中导师关注的前沿技术点,重点剖析了Vision Transformer(ViT)的核心原理与多模态学习的演进历程。ViT通过将图像分割为Patch并引入位置编码,实现了基于全局注意力的图像处理;多模态领域则从VisualBERT发展到ALBEF,展示了"先对齐再融合"的先进思路。文章还探讨了分布式训练、联邦学习

#考研#深度学习#人工智能 +3
【硬核万字长文】从 BERT 到 DeepSeek:大模型架构演进、预训练全流程与 RLHF 深度解析(附 PPT 原理图解与面经)

本文深入解析大语言模型的技术演进与核心原理。从Transformer架构的分野出发,详细对比了Encoder和Decoder-Only结构的特性差异。重点剖析了DeepSeek架构的创新之处:包括RMSNorm归一化、SwiGLU激活函数、RoPE旋转位置编码、MLA多头潜在注意力以及MoE混合专家模型等关键技术。文章还系统讲解了预训练阶段的ScalingLaw、数据预处理和NextTokenPr

#bert#架构#语言模型 +2
深度学习生成任务 (Seq2seq & Transformer) 核心考点全解析

本文系统讲解了Transformer架构在生成任务中的核心原理与应用。重点解析了Encoder-Decoder结构、MaskedAttention机制和位置编码等关键技术,并深入对比了训练时的TeacherForcing与推理时的Autoregressive模式差异。文章还介绍了KVCache优化和BeamSearch等实用技巧,为理解现代大模型工作原理提供了清晰框架,特别适合考研复试准备。

#深度学习#transformer#nlp
【硬核万字长文】从 BERT 到 DeepSeek:大模型架构演进、预训练全流程与 RLHF 深度解析(附 PPT 原理图解与面经)

本文深入解析大语言模型的技术演进与核心原理。从Transformer架构的分野出发,详细对比了Encoder和Decoder-Only结构的特性差异。重点剖析了DeepSeek架构的创新之处:包括RMSNorm归一化、SwiGLU激活函数、RoPE旋转位置编码、MLA多头潜在注意力以及MoE混合专家模型等关键技术。文章还系统讲解了预训练阶段的ScalingLaw、数据预处理和NextTokenPr

#bert#架构#语言模型 +2
【考研复试·项目实战】基于BART的特定领域文本生成系统:从预训练到推理全流程解析

针对通用预训练模型在特定领域(如医疗报告、法律文书、竞赛数据)中表现不佳的问题,本项目实现了一个基于 BART (Bidirectional and Auto-Regressive Transformers) 的文本生成系统。项目采用 “领域自适应预训练 (Domain Adaptive Pre-training)” + “下游任务微调 (Fine-tuning)” 的两阶段训练策略。本文将结合源

#考研
深度学习生成任务 (Seq2seq & Transformer) 核心考点全解析

本文系统讲解了Transformer架构在生成任务中的核心原理与应用。重点解析了Encoder-Decoder结构、MaskedAttention机制和位置编码等关键技术,并深入对比了训练时的TeacherForcing与推理时的Autoregressive模式差异。文章还介绍了KVCache优化和BeamSearch等实用技巧,为理解现代大模型工作原理提供了清晰框架,特别适合考研复试准备。

#深度学习#transformer#nlp
到底了