
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
储层计算(RC)通过固定非线性储层与可训练线性读出的解耦设计,克服了传统递归神经网络训练中的梯度问题。其核心在于利用高维动力系统将输入信号映射到线性可分空间,仅需训练输出层权重。数学证明表明,当储层权重矩阵的谱半径满足特定条件时,系统具备回声状态属性和衰退记忆特性,确保状态收敛并遗忘久远历史。RC架构从随机连接演进到结构化拓扑(如简单环、带跳跃环),并发展出深度堆叠等变体,显著提升了计算效率与性能

文章目录训练数据优化器选择SGDRMSpropAdam回调函数选择模型保存-ModelCheckpointLearningRateScheduler评估标准选择数据集的划分划分比例fit实际建议训练数据https://www.yuque.com/lart/ml-newer/...
本文介绍了Welford在线算法,这是一种高效计算大数据集统计量的方法。针对内存不足时处理大规模数据的问题,文章对比了传统方差计算方法的缺陷(内存占用大、数值稳定性差),详细阐述了Welford算法的核心思想:通过维护均值、计数和平方差三个变量,实现增量式流式计算。该算法具有O(1)空间复杂度和O(N)时间复杂度,能有效避免数值计算中的精度损失问题。文中提供了Python实现代码和实际应用示例,展

Selectivity or Invariance: Boundary-Aware Salient Object Detection文章目录Selectivity or Invariance: Boundary-Aware Salient Object Detection主要贡献针对问题主要方法实验细节参考链接原始文档: https://www.yuque.com/lart/papers/...
深度平衡(DEQ)模型是一种新兴的隐式层架构,通过寻找神经网络迭代过程的不动点来实现计算。该模型将传统深度网络视为无限层迭代的平衡状态,使用单层即可表达任意深度的网络结构。DEQ的核心思想是通过直接求解平衡方程z*=f(z*,x)来替代显式的层间计算,这种方法在视觉和NLP任务中展现出与先进技术竞争的性能。关键优势包括:1)利用现代深度架构表达完整网络计算;2)通过寻根而非迭代直接寻找不动点。理论

本文介绍了如何使用微分方程求解器构建连续时间或连续深度的神经网络模型。详细说明了构建ODE-Net的关键步骤:定义动力学函数、使用odeint求解器,以及通过vmap实现批处理。最后,作者将ODE-Net应用于1D玩具数据集,并与ResNet的预测结果进行对比。

循环推理模型(RRM)提出了一种新的AI推理范式,将部分计算从显式token序列转移到隐空间中进行。传统大模型通过增加token数量来延长推理,而RRM通过在隐状态中反复迭代更新来提升推理深度。典型代表HRM采用分层递归结构,通过高低层模块的交替更新实现渐进式推理;TRM则简化设计,仅通过隐状态和当前答案的循环改进就能取得良好效果。这类模型面临梯度不稳定和错误收敛两大挑战,但通过深监督和内部质量信

Franca模型通过创新的嵌套套娃聚类、循环掩码和绝对空间属性剥离技术实现了有效的视觉基础模型。该模型完全开源,使用公开数据集训练,在多项任务上超越DINOv2等主流模型。其核心创新包括:1)嵌套套娃聚类通过多粒度特征学习实现从宏观到微观的语义捕捉;2)循环掩码策略打破空间连续性,迫使模型深入理解语义;3)RASA技术分离空间位置与语义内容。这些设计使Franca 能获得更纯净的特征表示,有效解决

本文探讨了如何用信息论方法分析大语言模型(LLM)的内部表征,重点讨论了互信息与熵的估计难题。由于LLM隐藏状态是高维连续向量,传统网格划分方法面临维数灾难;。文章比较了K近邻估计、神经互信息估计和参数化密度估计等方法的优劣,最终引入软熵估计器作为工程折中方案。








