泊柴个人主页

@morgan777

泊柴

2024-05-23 14:14:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

视觉语言大模型的幻觉问题

视觉语言大模型经常会产生幻觉，本文借助一篇综述来总结LVLM 幻觉产生的原因和可能的解决方法。LVLM 通常使用 CLIP 作为视觉编码器，CLIP虽然能够将文本与视觉特征映射到同一空间中，但CLIP 全面表达视觉信息方面仍存在局限性，比如视觉分辨率的限制以及对细粒度视觉语义表达的不足。这意味着CLIP可能无法精确捕捉到图像中的所有细节或深层次语义，特别是当涉及到高分辨率图像中的微妙差异或需要深刻

#深度学习 #人工智能

图神经网络中的注意力机制

图神经网络中的注意力机制本文讨论了 GNN 中常用的注意力机制，相关论文有：Graph Attention NetworksHow Attentive are Graph Attention NetworksMasked Label Prediction: Unified Message Passing Model for Semi-Supervised ClassificationGraph A

#神经网络 #机器学习 #深度学习

到底了