logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文献阅读(2)——看文献做的笔记(1)

所以,回答你的问题:最终生成的​​视觉语义描述是低维的​​。它并不是原始高维视觉特征的简单“翻译”,而是经过MLLM系统进行深度​​抽象、压缩和重构​​后得到的​​语义精华​​。这种从高维具体信号到低维抽象概念的转换能力,正是MLLM能够“理解”图像并与人有效沟通的关键所在。定义:VisRet是一种文本到图像(T2I)检索的新范式,全称为“先可视化后检索”。核心目标:减轻现有多模态嵌入在跨模态相似

文献阅读(3)——CLIP(动作感知增强(动作三元组+动作状态提示)+LLM外部知识)——看的时候产生的一些想法——(3)

提示融合模块​​就像一个信息枢纽和翻译官。它接收来自“动作三联提示”的​​语义剧本​​和来自“动作状态提示”的​​视觉分镜图​​,然后通过上述某种或多种复杂的计算(如拼接、注意力、门控),将它们“编译”成一种CLIP图像编码器能够理解的、统一的​​多模态提示​。这种融合后的提示不仅告诉编码器“要看什么”(厨师切西红柿),还暗示了“怎么看”(关注手和刀的特定运动模式),从而​​引导CLIP的图像编码

#pytorch
文献阅读(3)——CLIP(动作感知增强(动作三元组+动作状态提示)+LLM外部知识)——(1)

总而言之,“通过引入提示学习来实现对象级对齐来迫使CLIP获得结构化的视觉表示”是一个精巧的技术路径。它让强大的CLIP模型突破了整体理解的局限,具备了精细的视觉结构分析能力,从而在开放词汇目标检测等需要细粒度理解的任务上展现出强大潜力。这个“手工制作的指令”是一个​​预设的提示模板​​,它远远超出了简单的原始描述。它的核心目的是清晰地向LLM说明任务、提供必要信息并规定输出格式。​​角色定义​​

#python
文献阅读(4)——轻量级LoRA模块(LamRA)——(1)

轻量级LoRA(Low-Rank Adaptation,低秩适应)模块是一种用于高效微调大模型的先进技术。它的核心思想非常巧妙:**​​不直接修改大模型庞大的原始参数,而是通过注入一个极其精简的、“外挂”式的可训练模块来让模型适应新任务​​。**下面这张流程图清晰地展示了LoRA从微调到推理的完整工作流程。

#pytorch
文献阅读(3)——CLIP(动作感知增强(动作三元组+动作状态提示)+LLM外部知识)——(2)

简单来说,大语言模型生成动作三元组,是一个将其强大的​​语言理解能力​​、​​知识储备​​和​​逻辑推理能力​​,通过​​提示工程​​的引导,转化为结构化信息输出的过程。它已经超越了简单的模式匹配,成为一种能够理解上下文和隐含信息的强大工具。MLP 通过“拼接 + 非线性变换”将动作的 “抽象语义” 和 “具体执行细节” 深度融合,为后续模块提供更具表达力的特征,是 “从分开学到联合理解” 的关键

#pytorch
到底了