logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2025年LLM模型综述(25/11/23)

RoPE对长上下文的改进方式:直接训:加个缩放系数切分input单元角度切小点, 使max_length -> wavelength还有一个(没看懂跟上一个有什么不同)适应性contextwindow:并行context窗口强调中间信息的窗口(模型倾向于看input两头, 遗忘中间)选一些token。

#人工智能
LLM模型

本文系统梳理了神经网络与大语言模型的核心技术要点。首先介绍了神经网络基础概念,包括激活函数(ReLU)、损失函数(MSE)及过拟合解决方案(Dropout、L1/L2正则)。随后深入探讨了Transformer架构的关键组件:自注意力机制(QKV矩阵)、多头注意力、位置编码(RoPE)和前馈网络(FFN)。针对大模型训练优化,分析了FlashAttention的内存效率改进、MOE架构的专家负载均

#人工智能
AgentAI 产品形态: Cursor的技术路线

CursorAgent (2024, 完全自主)初代Tab(2023)

#人工智能
Agent AI架构

视频合集: AI Agent 面试题01-09。

#人工智能
到底了