logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度隐式层 | 深度平衡模型 (Deep Equilibrium, DEQ)

深度平衡(DEQ)模型是一种新兴的隐式层架构,通过寻找神经网络迭代过程的不动点来实现计算。该模型将传统深度网络视为无限层迭代的平衡状态,使用单层即可表达任意深度的网络结构。DEQ的核心思想是通过直接求解平衡方程z*=f(z*,x)来替代显式的层间计算,这种方法在视觉和NLP任务中展现出与先进技术竞争的性能。关键优势包括:1)利用现代深度架构表达完整网络计算;2)通过寻根而非迭代直接寻找不动点。理论

文章图片
#机器学习#人工智能#深度学习 +1
深度隐式层 | 神经常微分方程

本文介绍了如何使用微分方程求解器构建连续时间或连续深度的神经网络模型。详细说明了构建ODE-Net的关键步骤:定义动力学函数、使用odeint求解器,以及通过vmap实现批处理。最后,作者将ODE-Net应用于1D玩具数据集,并与ResNet的预测结果进行对比。

文章图片
#机器学习#人工智能#深度学习 +1
循环推理模型:把思考搬进隐空间

循环推理模型(RRM)提出了一种新的AI推理范式,将部分计算从显式token序列转移到隐空间中进行。传统大模型通过增加token数量来延长推理,而RRM通过在隐状态中反复迭代更新来提升推理深度。典型代表HRM采用分层递归结构,通过高低层模块的交替更新实现渐进式推理;TRM则简化设计,仅通过隐状态和当前答案的循环改进就能取得良好效果。这类模型面临梯度不稳定和错误收敛两大挑战,但通过深监督和内部质量信

文章图片
#深度学习#神经网络
ArXiv 2507 | Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

Franca模型通过创新的嵌套套娃聚类、循环掩码和绝对空间属性剥离技术实现了有效的视觉基础模型。该模型完全开源,使用公开数据集训练,在多项任务上超越DINOv2等主流模型。其核心创新包括:1)嵌套套娃聚类通过多粒度特征学习实现从宏观到微观的语义捕捉;2)循环掩码策略打破空间连续性,迫使模型深入理解语义;3)RASA技术分离空间位置与语义内容。这些设计使Franca 能获得更纯净的特征表示,有效解决

文章图片
#机器学习#人工智能#深度学习 +1
从概率估计到“LLM 训练是有损压缩”

本文探讨了如何用信息论方法分析大语言模型(LLM)的内部表征,重点讨论了互信息与熵的估计难题。由于LLM隐藏状态是高维连续向量,传统网格划分方法面临维数灾难;。文章比较了K近邻估计、神经互信息估计和参数化密度估计等方法的优劣,最终引入软熵估计器作为工程折中方案。

文章图片
#矩阵#线性代数#计算机视觉 +2
深度学习之训练数据

文章目录训练数据优化器选择SGDRMSpropAdam回调函数选择模型保存-ModelCheckpointLearningRateScheduler评估标准选择数据集的划分划分比例fit实际建议训练数据https://www.yuque.com/lart/ml-newer/...

#深度学习
卷积神经网络之DenseNet(2017)

文章目录DenseNet(2017)核心: DenseBlock结构图结构分析ResNetDenseNet基本复合函数过渡层增长率瓶颈层(B标记)压缩(C标记)实现细节存在的问题: 梯度弥散解决的思路: 密集的快捷连接结构的其他优点: 参数效率/训练效率模型紧凑型隐性深度监督随机连接与确定连接特征重用DenseNet的不足Dense Connection 的显存占用大现有的工作: 连接模式/网络宽

卷积神经网络之FCN(2015)

文章目录FCN总结(2015)前言背景新意完全卷积网络(FCN)基本情况为什么CNN对像素级别的分类很难?如何将`全连接层`和`全卷积层`的相互转化?全连接层的权重W重塑成卷积层的滤波器有什么好处呢?怎么使反卷积的output大小和输入图片大小一致, 从而得到`pixel level prediction`?上采样(Upsampling)反卷积插值跳级(skip)结构构思其他人的工作Convnet

卷积神经网络之GoogLeNet(2014)

GoogLeNet(InceptionV1)(2014)文档存放更新地址:https://github.com/lartpang/ML_markdown文章书写匆忙,有些使用了网上其他朋友的文字以及图片,但是没有及时复制对应的链接,在此深表歉意,以及深深的感谢。如有朋友看到了对应的出处,或者作者发现,可以留言,小弟马上修改,添加引用。前言2014年,在google工作的Chris...

神经网络 | 从线性结构到可学习非线性

CNN、Transformer、ONN(Operational Neural Network)和KAN

文章图片
#神经网络#学习#人工智能 +3
    共 47 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择