logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI for 科学】基于辛结构的神经网络优化算法:理论与实验研究

本文提出了一种基于辛几何的神经网络优化算法——实用辛梯度下降(Practical Symplectic Gradient Descent, PSGD)。通过将神经网络参数空间扩展为辛流形,引入动量变量构成扩展相空间,我们设计了保持辛结构近似性质的优化算法。理论分析证明了PSGD的辛结构保持性、能量耗散性质和收敛性。实验表明,PSGD在浅网络中显著优于SGD和Adam,在深网络中与Adam相当或略优

#人工智能#神经网络#算法
【AI for 科学】辛算法在神经网络优化中的应用:理论、算法与实践

本文系统性地探索了辛算法(Symplectic Algorithm)在神经网络训练中的应用。通过将神经网络优化问题重新表述为哈密顿动力系统,我们设计了一系列基于辛几何原理的优化算法,并建立了相应的理论分析框架。本文不仅提供了严格的数学证明,还深入讨论了算法在实际深度学习任务中的实现细节和适应性调整。将神经网络参数空间扩展为辛流形:引入动量变量p∈Rnp∈Rn,构成扩展相空间θp∈R2nθp∈R2n

#算法#神经网络#人工智能
【无标题】高维复杂随机系统的几何演化动力学与信息理论统一框架:基于二维临界Ising模型的严格构建

本文提出一个融合随机几何、共形场论与重整化群理论的数学框架,用以描述高维复杂随机系统的演化动力学。我们以二维临界Ising模型为严格可解范例,构建从微观格点模型到宏观连续场论的全尺度对应,并建立信息熵与几何曲率之间的精确对偶关系。本框架的核心创新在于将SLE随机几何、CFT代数结构与RG流统一于一个自洽的数学体系,为神经网络、量子多体系统等复杂系统提供了严格的数学基础。定义5.2(普适性类)两个晶

#人工智能#算法
【AI for 科学】高维复杂随机系统的几何演化动力学与信息理论统一框架:数学理论与证明

本文建立了一个统一的数学框架,用于描述高维复杂随机系统(包括神经网络、量子多体系统、生态系统等)在演化过程中的几何结构变化、信息传播和长期行为。我们通过融合微分几何、随机分析、信息论和统计力学,构建了随机流形演化与信息场动力学的耦合系统,并证明了该系统在适当函数空间中的适定性、信息-几何对偶性的存在性以及长期收敛行为。主要创新包括:发展基于Γ-收敛的有限维逼近方法处理无穷维随机几何方程;应用代数几

#人工智能
【AI for 算法 5】投影-分解注意力(PDA):一种高效近似注意力机制的完整数学理论

自注意力机制是Transformer架构的核心组件,但其标准实现具有O(L2d)O(L^2d)O(L2d)的时间复杂度和O(L2)O(L^2)O(L2)的空间复杂度,这限制了其处理长序列的能力。本文提出了投影-分解注意力(Projection-Decomposition Attention, PDA),一种基于随机投影和低秩分解的近似注意力算法。PDA通过两个关键步骤实现复杂度降低:首先使用Joh

#人工智能#算法
【AI for 算法 4】基于动量自适应内存的注意力机制(MAMA)

本文档完整呈现 动量自适应内存注意力(MAMA) 机制。MAMA通过固定大小的可学习内存模块,以流式方式压缩全局序列信息,实现线性时间复杂度与常数空间复杂度,支持百万级别token的超长序列处理。文档核心贡献在于将算法设计与数学证明深度融合:每个算法组件(固定内存、流式更新、动量机制、局部‑全局融合、超参数选择)都有对应的定理保证其理论最优性。此外,文档提供三种扩展变体以适应不同场景,并深入讨论理

#人工智能#算法
【AI for 算法 3】HISDMA:层次化索引稀疏动态内存注意力 —— 完全严谨数学证明体系

HISDMA = Hierarchical Indexed Sparse Dynamic Memory Attention标准注意力计算:o∗=∑j=1Nexp⁡(q⊤kj)vj∑j=1Nexp⁡(q⊤kj)o^* = \frac{\sum_{j=1}^N \exp(q^\top k_j) v_j}{\sum_{j=1}^N \exp(q^\top k_j)}o∗=∑j=1N​exp(q⊤kj​)

#算法#人工智能#机器学习
【AI for 算法 2】投影-分解注意力(Projection-Decomposition Attention,PDA):完整数学推导与证明

✦ PDA提供了一种全新的注意力计算方法,通过投影降维和张量分解,实现了严格的误差控制和近线性复杂度。所有数学证明都是完整的,基于成熟的随机矩阵理论和逼近理论。PDA的核心创新在于:将注意力计算分解为两个独立阶段——投影阶段和分解阶段,通过这种方法实现严格的理论保证和最优的复杂度。每个步骤的误差是独立的,总方差是各步骤方差之和。第一项由定理2控制,第二项是投影误差,第三项是softmax的Lips

#人工智能#算法
【AI for 算法 1】GDE-OTO: 基于扩散几何与最优传输的大规模TSP求解框架

给定城市集合 V={x1,x2,…,xn}⊂RdV = \{x_1, x_2, \dots, x_n\} \subset \mathbb{R}^dV={x1​,x2​,…,xn​}⊂Rd,寻找排列 π:[n]→[n]\pi: [n] \to [n]π:[n]→[n] 最小化:L(π)=∑i=1n−1∥xπ(i)−xπ(i+1)∥+∥xπ(n)−xπ(1)∥L(\pi) = \sum_{i=1}^{

#算法#人工智能#机器学习
到底了