
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
t-SNE的目标是帮助我们在一个更低维度的空间中(通常是2D或3D)对数据进行可视化,同时保留数据点之间的相似性关系。t-SNE的目标是最小化这两个概率分布之间的差异,以确保高维空间中相似的点在低维空间中仍然保持相似。然后,在低维空间中,它再计算点与点之间的相似性,并构建另一个概率分布。t-SNE的核心思想是保持高维空间中数据点之间的相似性关系,尽量在低维空间中保持相似的关系。简而言之,t-SNE

地址:https://cbovar.github.io/ConvNetDraw/

摘要: 浙江大学团队提出InfiniDepth,首次将神经隐式场引入单目深度估计,实现任意分辨率连续深度预测。通过多尺度局部隐式解码器(15M参数)和DINOv3 ViT-Large特征金字塔,该方法在合成数据集Synth4K上高频细节区域超越DepthAnythingV2等SOTA模型5-8个百分点。创新性InfiniteDepthQuery策略自适应分配子像素查询预算,显著改善大视角下的新视角

摘要: 本文提出DAGE,一种双流Transformer架构,用于高效、精细的几何估计。该模型通过低分辨率流处理全局一致性与相机姿态估计,采用交替注意力机制降低计算成本;高分辨率流则保留原始分辨率细节。轻量级适配器融合双流特征,实现全局一致且细节丰富的几何输出。实验表明,DAGE在3D重建、深度估计和相机姿态预测任务中达到SOTA性能,支持2K分辨率和长序列处理(最高1000帧),运行速度显著优于

摘要: 哈尔滨工业大学、清华大学等团队提出DreamPRVR模型,解决长视频检索中的"局部尖峰"问题。该模型通过扩散模型想象全局背景,生成语义寄存器,增强局部特征匹配的准确性。采用文本扰动采样和异步注意力机制,显著提升三大数据集(ActivityNet Captions等)的检索性能,同时保持高效推理。代码已开源,为多模态检索提供了新思路。

NVIDIA推出Fast-FoundationStereo模型,在保持立体匹配大模型强大零样本泛化能力的同时,通过特征蒸馏、分块架构搜索和结构化剪枝等创新技术,将推理速度提升10倍以上,实现实时运行(47FPS)。该模型在多个基准测试中表现优异,既能媲美顶级泛化模型的精度,又具备实时处理能力,为自动驾驶等实时应用提供了高效解决方案。研究采用了知识蒸馏、互联网级真实数据伪标签等技术,有效解决了合成数

机器学习中最常见的方法是监督学习。在监督学习中,我们得到一组标记数据(X,Y),即(特征,标签),我们的任务是学习它们之间的关系。但是这种方法并不总是易于处理,因为训练通常需要大量数据,而标记数百万行数据既耗时又昂贵,这就对许多不同任务的训练模型造成了瓶颈。以这种方式训练的模型通常非常擅长手头的任务,但不能很好地推广到相关但是非相同领域内的任务。因为网络只专注于学习 X 的良好表示以生成之间的直接

图像增强是图像模式识别中非常重要的图像预处理过程。图像增强的目的是通过对图像中的信息进行处理,使得有利于模式识别的信息得到增强,不利于模式识别的信息被抑制,为图像的信息提取及其识别奠定良好的基础。图像增强按实现方法不同可分为点增强、空域增强和频域增强。

与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类

计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的技巧(tricks图像分类中的各种技巧对于目标检测、图像分割等任务也有很好的作用,因此值得好好总结。本文在精读论文的基础上,总结了图像分类任务的各种tricks如下:WarmupCutoutAdaBoud其他经典的tricks。








