
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
视觉语言大模型的幻觉问题
视觉语言大模型经常会产生幻觉,本文借助一篇综述来总结LVLM 幻觉产生的原因和可能的解决方法。LVLM 通常使用 CLIP 作为视觉编码器,CLIP虽然能够将文本与视觉特征映射到同一空间中,但CLIP 全面表达视觉信息方面仍存在局限性,比如视觉分辨率的限制以及对细粒度视觉语义表达的不足。这意味着CLIP可能无法精确捕捉到图像中的所有细节或深层次语义,特别是当涉及到高分辨率图像中的微妙差异或需要深刻
图神经网络中的注意力机制
图神经网络中的注意力机制本文讨论了 GNN 中常用的注意力机制,相关论文有:Graph Attention NetworksHow Attentive are Graph Attention NetworksMasked Label Prediction: Unified Message Passing Model for Semi-Supervised ClassificationGraph A
到底了







