
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了一种基于辛几何的神经网络优化算法——实用辛梯度下降(Practical Symplectic Gradient Descent, PSGD)。通过将神经网络参数空间扩展为辛流形,引入动量变量构成扩展相空间,我们设计了保持辛结构近似性质的优化算法。理论分析证明了PSGD的辛结构保持性、能量耗散性质和收敛性。实验表明,PSGD在浅网络中显著优于SGD和Adam,在深网络中与Adam相当或略优
本文系统性地探索了辛算法(Symplectic Algorithm)在神经网络训练中的应用。通过将神经网络优化问题重新表述为哈密顿动力系统,我们设计了一系列基于辛几何原理的优化算法,并建立了相应的理论分析框架。本文不仅提供了严格的数学证明,还深入讨论了算法在实际深度学习任务中的实现细节和适应性调整。将神经网络参数空间扩展为辛流形:引入动量变量p∈Rnp∈Rn,构成扩展相空间θp∈R2nθp∈R2n
本文提出一个融合随机几何、共形场论与重整化群理论的数学框架,用以描述高维复杂随机系统的演化动力学。我们以二维临界Ising模型为严格可解范例,构建从微观格点模型到宏观连续场论的全尺度对应,并建立信息熵与几何曲率之间的精确对偶关系。本框架的核心创新在于将SLE随机几何、CFT代数结构与RG流统一于一个自洽的数学体系,为神经网络、量子多体系统等复杂系统提供了严格的数学基础。定义5.2(普适性类)两个晶
本文建立了一个统一的数学框架,用于描述高维复杂随机系统(包括神经网络、量子多体系统、生态系统等)在演化过程中的几何结构变化、信息传播和长期行为。我们通过融合微分几何、随机分析、信息论和统计力学,构建了随机流形演化与信息场动力学的耦合系统,并证明了该系统在适当函数空间中的适定性、信息-几何对偶性的存在性以及长期收敛行为。主要创新包括:发展基于Γ-收敛的有限维逼近方法处理无穷维随机几何方程;应用代数几
自注意力机制是Transformer架构的核心组件,但其标准实现具有O(L2d)O(L^2d)O(L2d)的时间复杂度和O(L2)O(L^2)O(L2)的空间复杂度,这限制了其处理长序列的能力。本文提出了投影-分解注意力(Projection-Decomposition Attention, PDA),一种基于随机投影和低秩分解的近似注意力算法。PDA通过两个关键步骤实现复杂度降低:首先使用Joh
本文档完整呈现 动量自适应内存注意力(MAMA) 机制。MAMA通过固定大小的可学习内存模块,以流式方式压缩全局序列信息,实现线性时间复杂度与常数空间复杂度,支持百万级别token的超长序列处理。文档核心贡献在于将算法设计与数学证明深度融合:每个算法组件(固定内存、流式更新、动量机制、局部‑全局融合、超参数选择)都有对应的定理保证其理论最优性。此外,文档提供三种扩展变体以适应不同场景,并深入讨论理
HISDMA = Hierarchical Indexed Sparse Dynamic Memory Attention标准注意力计算:o∗=∑j=1Nexp(q⊤kj)vj∑j=1Nexp(q⊤kj)o^* = \frac{\sum_{j=1}^N \exp(q^\top k_j) v_j}{\sum_{j=1}^N \exp(q^\top k_j)}o∗=∑j=1Nexp(q⊤kj)
✦ PDA提供了一种全新的注意力计算方法,通过投影降维和张量分解,实现了严格的误差控制和近线性复杂度。所有数学证明都是完整的,基于成熟的随机矩阵理论和逼近理论。PDA的核心创新在于:将注意力计算分解为两个独立阶段——投影阶段和分解阶段,通过这种方法实现严格的理论保证和最优的复杂度。每个步骤的误差是独立的,总方差是各步骤方差之和。第一项由定理2控制,第二项是投影误差,第三项是softmax的Lips
给定城市集合 V={x1,x2,…,xn}⊂RdV = \{x_1, x_2, \dots, x_n\} \subset \mathbb{R}^dV={x1,x2,…,xn}⊂Rd,寻找排列 π:[n]→[n]\pi: [n] \to [n]π:[n]→[n] 最小化:L(π)=∑i=1n−1∥xπ(i)−xπ(i+1)∥+∥xπ(n)−xπ(1)∥L(\pi) = \sum_{i=1}^{
AI for Science, AI for化学研究







