harry_xinyi 个人主页

@harry_xinyi

harry_xinyi

2025-11-19 16:32:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2025年LLM模型综述（25/11/23）

RoPE对长上下文的改进方式：直接训：加个缩放系数切分input单元角度切小点，使max_length -> wavelength还有一个（没看懂跟上一个有什么不同）适应性contextwindow:并行context窗口强调中间信息的窗口（模型倾向于看input两头，遗忘中间）选一些token。

#人工智能

LLM模型

本文系统梳理了神经网络与大语言模型的核心技术要点。首先介绍了神经网络基础概念，包括激活函数（ReLU）、损失函数（MSE）及过拟合解决方案（Dropout、L1/L2正则）。随后深入探讨了Transformer架构的关键组件：自注意力机制（QKV矩阵）、多头注意力、位置编码（RoPE）和前馈网络（FFN）。针对大模型训练优化，分析了FlashAttention的内存效率改进、MOE架构的专家负载均

#人工智能

AgentAI 产品形态： Cursor的技术路线

CursorAgent (2024, 完全自主)初代Tab(2023)

#人工智能

Agent AI架构

视频合集： AI Agent 面试题01-09。

#人工智能

到底了