TYeclipse 个人主页

@qq_27881833

TYeclipse

2023-06-03 20:44:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

论文笔记：Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs

摘要：论文《Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs》提出AutoSEP框架，通过自监督提示学习提升多模态大语言模型（MLLMs）的细粒度图像分类能力。该方法利用无标签数据迭代优化描述生成提示，引导MLLM关注关键判别特征，无需训练或微调。在8个细粒度数据集上的实

#论文阅读

论文笔记：MINT: Memory-Infused Prompt Tuning at Test-time for CLIP

论文摘要：MINT框架提升CLIP在测试时的分布外泛化能力本文针对视觉语言预训练模型(VLM)在测试数据分布偏移时的泛化问题，提出记忆注入提示调整框架MINT。该方法创新性地引入记忆提示库(MPB)，通过：1)存储可学习的键值提示对作为记忆；2)基于测试图像的层次特征动态检索相关提示组合成关联提示；3)将关联提示注入图像编码器提供细粒度视觉引导。实验表明，MINT在ImageNet-R等四个OO

#论文阅读

论文笔记：Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation

本文提出了一种名为MP2A的渐进式对齐框架，用于解决多源无监督域适应(MS-UDA)中CLIP模型伪标签噪声问题。该方法采用"从易到难"的课程学习策略，通过"学习-提炼-复习"的三阶段循环：首先在高置信度样本上训练，然后优化伪标签，最后将可靠样本传递到后续训练阶段。与直接使用所有伪标签的方法相比，MP2A有效减少了错误传播，在ImageCLEF(94.3%)

#论文阅读

论文笔记：CMP: Composable Meta Prompt for SAM-based Cross-domain Few-shot Segmentation

本文提出CMP框架，通过可组合元提示和频率感知交互机制，解决SAM模型在跨域少样本分割中的两个关键问题：依赖人工提示和跨域能力不足。CMP包含三个核心模块：RCT模块进行语义扩展，CMPG模块自动生成元提示，FAI模块在频率域减轻领域差异。实验表明，CMP在四个跨域数据集上取得SOTA性能，1-shot和5-shot场景下mIoU分别达到71.8%和74.5%。该框架有效提升了SAM在跨域少样本分

#论文阅读

Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR 论文笔记

本文提出了一种名为"自我对弈与变分问题合成"(SVS)的新策略，用于解决大型语言模型(LLM)在强化学习可验证奖励(RLVR)训练中的策略熵崩塌问题。研究发现传统RLVR训练虽然能提高Pass@1性能，但会降低生成多样性，限制模型在Pass@k指标上的表现。SVS方法通过在线自我对弈机制，利用模型正确解答自动合成变分问题，同时保持参考答案不变，从而维持训练过程中的策略熵和生成多

#论文阅读

论文笔记：VIBEVOICE Technical Report

VIBEVOICE论文提出了一种创新的长时多说话人语音合成框架，通过结合"下一令牌扩散"技术和高效连续语音分词器(7.5Hz，压缩率较Encodec提升80倍)，实现了90分钟超长对话音频的生成。模型采用LLM+扩散头的架构，在64K上下文窗口下支持最多4个说话人。评测显示：VIBEVOICE-7B在真实感(3.76分)、WER(1.11%)等指标上全面超越Gemini等竞品，

#论文阅读

论文笔记：UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation En

摘要本文提出UPRE框架，用于解决零样本域适应目标检测中的域偏差和检测偏差问题。针对传统方法依赖手动设计提示的局限性，UPRE通过联合优化文本提示和视觉表示来提升性能。核心创新包括：1)多视图域提示结合语言先验与检测知识；2)统一表示增强模块生成伪目标域特征；3)多级增强策略（相对域距离和正负分离）实现跨模态对齐。实验在9个跨域数据集上验证了有效性，在恶劣天气、跨城市和虚拟到真实场景中mAP提升

#论文阅读 #目标检测

论文笔记：Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learnin

本文提出PREF-GRPO方法解决文本生成图像(T2I)中的奖励黑客问题。研究发现当前基于点式评分的强化学习会因微小分数差异导致"虚幻优势"，使模型过度优化而降低图像质量。为此，作者创新性地采用成对偏好比较计算胜率作为奖励信号，建立更稳定的训练范式。同时构建UNIGENBENCH评估基准，包含600个提示和37个评估维度，通过多模态大模型实现细粒度评估。实验表明，PREF-GR

#论文阅读

论文笔记：MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

MCP-Bench提出了一种新型基准测试方法，用于评估大语言模型在复杂现实任务中的工具使用能力。该研究通过连接28个MCP服务器(含250个工具)构建了跨领域测试环境，相比现有基准更强调多工具协同、长程规划和模糊指令处理能力。实验评估了20个先进LLM，发现它们在跨域协调和高级推理方面仍存在显著不足。该工作为LLM智能体的真实世界应用能力评估提供了新范式，相关代码已开源。

#论文阅读

论文笔记：A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

本文介绍了A.S.E（AI代码生成安全评估）基准，这是一个针对存储库级安全代码生成的评估框架。该基准从具有CVE记录的真实项目中构建任务，保留完整的项目上下文如构建系统和跨文件依赖。其容器化评估框架使用专家规则对代码安全性、构建质量和生成稳定性进行可复现评估。实验发现：Claude-3.7-Sonnet整体表现最佳；开源与专有模型安全差距小（Qwen3-235B-A22B-Instruct安全评分

#论文阅读 #人工智能

共 40 条

请选择