logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

视觉语言大模型的幻觉问题

视觉语言大模型经常会产生幻觉,本文借助一篇综述来总结LVLM 幻觉产生的原因和可能的解决方法。LVLM 通常使用 CLIP 作为视觉编码器,CLIP虽然能够将文本与视觉特征映射到同一空间中,但CLIP 全面表达视觉信息方面仍存在局限性,比如视觉分辨率的限制以及对细粒度视觉语义表达的不足。这意味着CLIP可能无法精确捕捉到图像中的所有细节或深层次语义,特别是当涉及到高分辨率图像中的微妙差异或需要深刻

#深度学习#人工智能
图神经网络中的注意力机制

图神经网络中的注意力机制本文讨论了 GNN 中常用的注意力机制,相关论文有:Graph Attention NetworksHow Attentive are Graph Attention NetworksMasked Label Prediction: Unified Message Passing Model for Semi-Supervised ClassificationGraph A

#神经网络#机器学习#深度学习
到底了