
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【多视角立体视觉系列】 几何变换的层次——投影变换,仿射变换,度量变换和欧几里德变换20200226 FesianXu前言几何变换非常常见,在计算机视觉和图形学上更是如此,而这里指的几何一般是由点,线,面等几何元素组成的1,2维或3维图形。几何变换能够实现不同空间几何元素的对应,在很多领域中有着非常多的应用,立体视觉便是其中一个。本文尝试对四种不同类型的几何变换进行...
双目三维重建——层次化重建思考FesianXu 2020.7.22 at ANT FINANCIAL intern前言本文是笔者阅读[1]第10章内容的笔记,本文从宏观的角度阐述了双目三维重建的若干种层次化的方法,包括投影重建,仿射重建和相似性重建到最后的欧几里德重建等。本文作为介绍性质的文章,只提供了这些方法的思路,并没有太多的细节,细节将会由之后的博文继续展开。如有谬误,请联系作者指出,转载请
视频分析与多模态融合之一,为什么需要多模态融合FesianXu 20210130 at Baidu search team前言在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,意犹未尽。在实习工作中,笔者进一步接触了更多视频分析在视频搜索中的一些应用,深感之前对视频分析在业界中应用的理解过于狭隘。本文作为笔者对前文的一个补充,进一步讨论一下视频
CLIP中的infoNCE损失是一种对比性损失,在SigLIP这个工作中,作者提出采用非对比性的sigmoid损失,能够更高效地进行图文预训练

前言:接触深度学习也有一两年了,一直没有将一些实战经验整理一下形成文字。本文打算用来纪录一些在深度学习实践中的调试过程,纪录一些经验之谈。因为目前深度学习业界的理论基础尚且薄弱,很多工程实践中的问题没法用理论解释得很好,这里的只是实践中的一些经验之谈,以供参考以及排错。本文将持续更新。如有问题请指出,联系方式:e-mail: FesianXu@163.comQQ: 973926198gi...
在pytorch中的双线性采样(Bilinear Sample)FesianXu 2020/09/16 at UESTC前言双线性插值与双线性采样是在图像插值和采样过程中常用的操作,在pytorch中对应的函数是torch.nn.functional.grid_sample,本文对该操作的原理和代码例程进行笔记。如有谬误,请联系指正,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-
本文纪录常用的人体铰链关节点数据集中的各个关节点的排序和名字等。
本文探讨了大语言模型(LLM)训练中的偏好对齐方法,重点介绍了直接偏好优化(DPO)和近端策略优化(PPO)两种方法。偏好对齐通过对比正负样本(如奖励模型筛选或人工标注)优化模型回答质量,避免仅依赖行为模拟(SFT)导致的泛化不足问题。DPO通过引入初始模型约束和Bradley-Terry偏好模型,稳定训练过程并防止奖励劫持。实验表明,无约束优化易生成无意义回答,而DPO结合KL散度约束能有效提升

之前笔者在[1]中曾经介绍过BLIP2,其采用Q-Former的方式融合了多模态视觉信息和LLM,本文作者想要简单介绍一个在BLIP2的基础上进一步加强了图文指令微调能力的工作——InstructBLIP,希望对诸位读者有所帮助。

∇ 联系方式:e-mail:FesianXu@gmail.comgithub:https://github.com/FesianXu知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号:之前写过『清华ERNIE』 与 『百度ERNIE』 的对比,也着重介绍了下百度的ERNIE系列模型,主要是ERNIE 1.0 [1]和ERNIE 2.0 [2]。就笔者的读后感而言,百度的工作和学术界有着较大不同







