
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本周主要阅读了《Text-Guided Visual Token Selection for Large Multimodal Models》论文,FlashVLM通过文本引导融合视觉显著性与跨模态相似度,动态选择关键视觉令牌,在超75%压缩下性能不降反升,显著提升多模态模型效率。FlashVLM优点简单有效:不需要修改模型内部,插拔式使用。超越无损:适当剪枝反而能提升性能(去噪声效应)。高度通用
本周开始第二个评估实验,由于数据量较大,运行时间较长,运行间隙阅读了论文《When Tokens Talk Too Much: A Survey of Multimodal Long‑Context Token Compression across Images, Videos, and Audios》,论文是第一个系统性地对多模态长上下文 token 压缩领域进行梳理的综述。多模态大语言模型(M
本周在进行评估模型的实验,同时阅读了论文《Compress and Cache:Vision Token Compression for Efficient Generation and Retrieval》第一遍:LLM 将密集视觉 token 压缩为少量“摘要 token”。第二遍:使用摘要 token 替代原始图像 token 进行语言指令处理。(引入 对比损失 提升摘要 token 的判别
本周主要精读两篇文献。《Learning Transferable Visual Models From Natural Language Supervision》主要讲述CLIP模型,该模型通过对比学习进行预训练,完成后可以进行零样本迁移,并且模型表现良好。同时考虑到输入数据为图文对,有的文本存在多重含义,因此具体化提示词,增加匹配准确性。
本周主要完成了论文模型的复现,对过程中遇到的问题进行记录。同时对论文《Token Sequence Compression for Efficient Multimodal Computing》第二种方法进行进行补充学习。1,更换镜像**核心作用:**给当前云服务器重装 / 更换操作系统,相当于给电脑换系统。原来的系统用腻了 / 出问题了,想从 CentOS 换成 Ubuntu,或从 Window
Nougat Neural Optical Understanding for Academic Documents》核心聚焦学术文档的结构化信息提取,旨在解决学术文档数字化过程中的信息提取效率与准确性问题。《A Survey of Token Compression for Efficient Multimodal Large Language Models》是首篇系统综述多模态大模型(MLLM
本周理论方面主要学习模型轻量化的第三种方法:模型量化,该方法是将高精度数据转会为低精度数据从而实现模型的压缩。还学习了自然语言处理任务分类,了解到自然语言处理任务可以分为三类任务:理解,生成,问答。主要对理解任务具体应用:信息检索进行学习。学习了信息检索的定义,评估方法、传统信息检索方法以及神经网络信息检索方法,同时了解到传统信息检索方法存在的缺陷。
本周主要完成系统重装与环境的重新配置,因此想对重装流程以及学习到一些新知识进行记录。同时学习了模型轻量化的一个小知识点:模型剪枝。学习剪枝对象,依据,策略,并完整过一遍剪枝流程。本周由于有结课考试,因此花费较多时间备考。同时完成系统重装与环境重配,发现前阵子跑不通的程序是网络问题,下周将完成对该程序存在问题的处理,并加快NLP的学习进程。
本周主要完成文本分类任务的代码解读,对解读过程中产生的疑问进行解答以及对遗忘的知识点进行复习。同时,对OCR进行一些了解。知道OCR的定义,工作原理,并对图像预处理的去噪中的方法进行补充。EvalPrediction:包含predictions(模型输出 logits)和label_ids(真实标签)。是transformer提取预测logits;计算预测类别;对比真实标签。语句作用:条件赋值 +
本周主要完成文本分类任务的代码解读,对解读过程中产生的疑问进行解答以及对遗忘的知识点进行复习。同时,对OCR进行一些了解。知道OCR的定义,工作原理,并对图像预处理的去噪中的方法进行补充。EvalPrediction:包含predictions(模型输出 logits)和label_ids(真实标签)。是transformer提取预测logits;计算预测类别;对比真实标签。语句作用:条件赋值 +







