
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DAL模块的背景,动态锚框的损失函数计算,匹配度的产生,实验

多种聚类算法的解释,聚类算法中K-Means的在sklearn的应用与实战

介绍了,一个基于扩散模型的图像编辑框架,旨在通过少量示例学习艺术家的风格,实现照片的创意涂鸦(如添加装饰元素、艺术化处理),同时保持背景的完整性和一致性。该论文的动机:将普通图片转换成富有创意的艺术作品(比如添加手绘线条,几何图案,3D效果等),但以往的传统方法依赖于艺术家的手动操作,耗时且门槛高。全局风格迁移(如风格迁移模型)会全局修改图像纹理和颜色,导致背景内容被破坏,如人脸变成油画风格而失

本文系统梳理了多模态对比学习模型的发展脉络,重点分析了CLIP及其改进模型的技术特点。CLIP通过文本-图像对比学习实现跨模态语义对齐,采用双编码器架构和对称对比损失。OpenCLIP验证了多模态学习的幂律定律,表明模型性能与计算规模呈负相关。SigLIP创新性地使用Sigmoid损失替代Softmax,显著降低了内存消耗并支持小批量训练。最新的SigLIP2整合了LocCa定位能力、SILC自蒸

目标检测,YOLOV1,YOLOV2的算法基本思想、网络结构、局限性与改进

该论文提出一种NoPoSplat的前馈模型,用于在没有姿态情况下的稀疏多视图图像中构建三维场景。相较于以往需要将精确的相机姿态作为输入不同,NoPoSplat直接从一个局部摄像机的坐标(标准空间)中预测高斯基元,消除姿态估计及其相关误差的需求。

该论文介绍了一个基于RGB图像的深度修复模型,但是这个模型可以用于各种场景下的下游任务,包括3D场景填充,文本到场景的生成,稀疏视图重建,LiDAR深度估计。DepthLab模型在填充缺失值中保持了对缺失区域(mask)的弹性,并且保持了与条件已知深度的尺度一致性。具体来说DepthLab引入了双分支的深度扩散框架,利用RGB图像作为条件输入,将已知深度和mask区域输入到深度估计U-Net中,并

该论文提出了深度先验组装(deep prior assembly)框架,利用大语言模型和视觉模型的不同的多样化深度先验组装在一起,以零样本的方法从单图像中重建场景。关键思想是通过将单图像场景重建任务分解为一系列子任务,并且每个子任务均通过大模型来解决。

YOLOV3和YOLOV3 SPP的网络结构,特点与改进、YOLOV3实时目标检测代码

ResNet和ResNext网络的原理概述和实现
