logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习论文分享(一)ByteTrackV2: 2D and 3D Multi-Object T racking by Associating Every Detection Box

在此仅做翻译(经过个人调整,有基础的话应该不难理解),有时间会有详细精读笔记。多目标跟踪(MOT)旨在估计视频帧内物体的边界框和身份。检测框是二维和三维MOT的基础。检测分数不可避免的变化会导致跟踪后的目标缺失。我们提出了一种分层的数据关联策略来挖掘低分检测框中的真实目标,缓解了目标缺失和轨迹碎片化的问题。简单而通用的数据关联策略在2D和3D设置下都显示了有效性。在3D场景中,跟踪器更容易预测世界

文章图片
#深度学习#3d#计算机视觉
深度学习入门(二十九)卷积神经网络——VGG

课件VGGVGG块VGG架构进度总结教材1 VGG块2 VGG网络3 训练模型4 小结

文章图片
#深度学习#cnn#神经网络
深度学习入门(六十四)循环神经网络——编码器-解码器架构

课件重新考察CNN重新考察RNN编码器-解码器架构总结教材1 编码器2 解码器3 合并编码器和解码器4 训练模型5 小结参考文献

文章图片
#深度学习#rnn#架构
深度学习论文分享(六)Simple Baselines for Image Restoration

在此仅做翻译尽管近年来在图像恢复领域取得了重大进展,但最先进的(SOTA)方法的系统复杂性也在增加,这可能会阻碍方法的方便分析和比较。在本文中,我们提出了一个简单的基线,它超过了SOTA方法,并且计算效率很高。为了进一步简化基线,我们揭示了非线性激活函数,如Sigmoid, ReLU, GELU, Softmax等是不必要的:它们可以用乘法代替或删除。因此,我们从基线推导出一个非线性激活自由网络,

文章图片
#深度学习#人工智能
深度学习论文分享(九)Unifying Motion Deblurring and Frame Interpolation with Events

在此仅做翻译基于帧的相机快门速度慢,曝光时间长,往往会造成视觉模糊和帧间信息丢失,从而降低拍摄视频的整体质量。为此,我们提出了一个基于事件的运动去模糊和帧插值的统一框架,用于模糊视频增强,其中利用极低的事件延迟来缓解运动模糊并促进中间帧预测。首先利用可学习的二重积分网络预测模糊帧与锐隐图像之间的映射关系,然后利用连续模糊输入和并发事件的信息,提出融合网络对粗糙结果进行细化。通过探索模糊帧、潜在图像

文章图片
#深度学习#人工智能
深度学习入门(十四)数值稳定性和模型初始化

数值稳定性和模型初始化课件教材梯度消失和梯度爆炸梯度消失梯度爆炸打破对称性参数初始化默认初始化Xavier初始化额外阅读小结

文章图片
#深度学习#python#人工智能
深度学习入门(六十)循环神经网络——门控循环单元GRU

课件关注一个序列门候选隐状态隐状态总结教材1 门控隐状态1.1 重置门和更新门1.2 候选隐状态1.4 隐状态2 从零开始实现2.1 初始化模型参数2.2 定义模型2.3 训练与预测3 简洁实现4 小结参考文献

文章图片
#深度学习#rnn#gru
深度学习入门(十八)深度学习计算——参数管理

1 参数访问1.1 目标参数1.2 一次性访问所有参数1.3 从嵌套块收集参数2 参数初始化2.1 内置初始化2.2 自定义初始化3 参数绑定

文章图片
#深度学习#人工智能#神经网络
    共 92 条
  • 1
  • 2
  • 3
  • 10
  • 请选择