得和舍个人主页

@qq_44768937

得和舍

2024-07-01 17:11:15 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

长上下文泛化问题：算力、显存与无限注意力

本文针对 2026 年大语言模型面临的“长上下文泛化 (Long-Context Generalization)”核心挑战进行了全景式技术复盘。文章首先剖析了长文本处理中普遍存在的 "Lost in the Middle" 现象及其背后的注意力退化机制；继而系统阐述了从 **RoPE** 旋转位置编码到 **YaRN** 频率内插，再到 **LongRoPE** 非均匀进化搜索的数学修正演进路径。

#网络

Transformer 时代的语言模型：大规模语言模型的发展脉络与技术演化

本文梳理了Transformer时代大规模语言模型（LLMs）的技术演进脉络。从2017年Transformer架构的提出开始，重点分析了关键技术创新：双向编码器BERT通过掩码语言建模实现深度理解；GPT-3证明模型规模与提示工程的协同效应；InstructGPT引入人类反馈强化学习（RLHF）实现指令对齐；LLaMA通过数据规模优化突破参数量限制；FlashAttention通过IO感知优化解

#transformer #语言模型 #深度学习 +3

到底了