
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
BLIP-2通过一个轻量级的 Querying Transformer (Q-Former是一个轻量级的 transformer,它使用一组可学习的查询向量来从冻结图像编码器中提取视觉特征,为LLM提供最有用的视觉特征,以输出所需的文本) 弥补了模态 gap,该 Transformer 分两个阶段进行预训练。本文提出了BLIP-2,这是一种通用而有效的预训练策略,它从现成的冻结预训练图像编码器和冻

Paper nameRelational Knowledge DistillationPaper Reading NoteURL: https://arxiv.org/abs/1904.05068TL;DR提出了一种以模型输出的结构信息进行蒸馏的方式,对于metric learning、分类等任务有较大涨点效果Introduction当前的SOTA模型基本都需要较大的计算量和存储消耗,一个有希望的
《LangChain 简明讲义:从 0 到 1 构建 LLM 应用程序》从基础概念到实际操作,对大语言模型和 LangChain 进行了全面的介绍,以便读者深入了解模型的原理和 LangChain 的运作方式。

Paper nameConsistent Video Depth EstimationPaper Reading Notehttps://arxiv.org/pdf/2004.15021.pdfTL;DRSIGGRAPH 2020 的文章,提出了一种基于视频的重建方案,结合基于深度学习的深度估计方法及传统的基于几何约束的方法,来得到准确和一致的深度;具体采用的方法是在测试时对单帧深度估计网络进行
Book name : Computer Vision: A Modern ApproachBook URL: https://www.academia.edu/38213969/Computer_Vision_A_Modern_Approach_2nd_Edition第十一章:跟踪跟踪是根据一组给定的图像序列,对图像中的运动目标形态形成的一种推理跟踪应用主要包括:运动捕捉:如得到...
Paper nameArcFace: Additive Angular Margin Loss for Deep Face RecognitionPaper Reading NoteURL: https://arxiv.org/pdf/1801.07698.pdfTL;DR该篇文章出自CVPR2019,在SphereFace与CosFace的基础上提出Additive Angular M...
Book name : Computer Vision: A Modern ApproachBook URL: https://www.academia.edu/38213969/Computer_Vision_A_Modern_Approach_2nd_Edition第一章:几何相机模型传统意义上的成像设备有很多种,动物的眼睛、摄像机、射电望远镜等都是成像设备。16十几发明了第一款基于透...
Paper nameConsistent Video Depth EstimationPaper Reading Notehttps://arxiv.org/pdf/2004.15021.pdfTL;DRSIGGRAPH 2020 的文章,提出了一种基于视频的重建方案,结合基于深度学习的深度估计方法及传统的基于几何约束的方法,来得到准确和一致的深度;具体采用的方法是在测试时对单帧深度估计网络进行
Paper nameDOREFA-NET: TRAINING LOW BITWIDTH CONVOLUTIONAL NEURAL NETWORKS WITH LOW BITWIDTH GRADIENTSPaper Reading NoteURL: https://arxiv.org/pdf/1606.06160.pdfTL;DR提供了低比特权重、特征、梯度的在线量化训练方案量化位宽的重要性排序为: