
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:论文《Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs》提出AutoSEP框架,通过自监督提示学习提升多模态大语言模型(MLLMs)的细粒度图像分类能力。该方法利用无标签数据迭代优化描述生成提示,引导MLLM关注关键判别特征,无需训练或微调。在8个细粒度数据集上的实
论文摘要:MINT框架提升CLIP在测试时的分布外泛化能力 本文针对视觉语言预训练模型(VLM)在测试数据分布偏移时的泛化问题,提出记忆注入提示调整框架MINT。该方法创新性地引入记忆提示库(MPB),通过:1)存储可学习的键值提示对作为记忆;2)基于测试图像的层次特征动态检索相关提示组合成关联提示;3)将关联提示注入图像编码器提供细粒度视觉引导。实验表明,MINT在ImageNet-R等四个OO
本文提出了一种名为MP2A的渐进式对齐框架,用于解决多源无监督域适应(MS-UDA)中CLIP模型伪标签噪声问题。该方法采用"从易到难"的课程学习策略,通过"学习-提炼-复习"的三阶段循环:首先在高置信度样本上训练,然后优化伪标签,最后将可靠样本传递到后续训练阶段。与直接使用所有伪标签的方法相比,MP2A有效减少了错误传播,在ImageCLEF(94.3%)
本文提出CMP框架,通过可组合元提示和频率感知交互机制,解决SAM模型在跨域少样本分割中的两个关键问题:依赖人工提示和跨域能力不足。CMP包含三个核心模块:RCT模块进行语义扩展,CMPG模块自动生成元提示,FAI模块在频率域减轻领域差异。实验表明,CMP在四个跨域数据集上取得SOTA性能,1-shot和5-shot场景下mIoU分别达到71.8%和74.5%。该框架有效提升了SAM在跨域少样本分
本文提出了一种名为"自我对弈与变分问题合成"(SVS)的新策略,用于解决大型语言模型(LLM)在强化学习可验证奖励(RLVR)训练中的策略熵崩塌问题。研究发现传统RLVR训练虽然能提高Pass@1性能,但会降低生成多样性,限制模型在Pass@k指标上的表现。SVS方法通过在线自我对弈机制,利用模型正确解答自动合成变分问题,同时保持参考答案不变,从而维持训练过程中的策略熵和生成多
VIBEVOICE论文提出了一种创新的长时多说话人语音合成框架,通过结合"下一令牌扩散"技术和高效连续语音分词器(7.5Hz,压缩率较Encodec提升80倍),实现了90分钟超长对话音频的生成。模型采用LLM+扩散头的架构,在64K上下文窗口下支持最多4个说话人。评测显示:VIBEVOICE-7B在真实感(3.76分)、WER(1.11%)等指标上全面超越Gemini等竞品,
摘要 本文提出UPRE框架,用于解决零样本域适应目标检测中的域偏差和检测偏差问题。针对传统方法依赖手动设计提示的局限性,UPRE通过联合优化文本提示和视觉表示来提升性能。核心创新包括:1)多视图域提示结合语言先验与检测知识;2)统一表示增强模块生成伪目标域特征;3)多级增强策略(相对域距离和正负分离)实现跨模态对齐。实验在9个跨域数据集上验证了有效性,在恶劣天气、跨城市和虚拟到真实场景中mAP提升
本文提出PREF-GRPO方法解决文本生成图像(T2I)中的奖励黑客问题。研究发现当前基于点式评分的强化学习会因微小分数差异导致"虚幻优势",使模型过度优化而降低图像质量。为此,作者创新性地采用成对偏好比较计算胜率作为奖励信号,建立更稳定的训练范式。同时构建UNIGENBENCH评估基准,包含600个提示和37个评估维度,通过多模态大模型实现细粒度评估。实验表明,PREF-GR
MCP-Bench提出了一种新型基准测试方法,用于评估大语言模型在复杂现实任务中的工具使用能力。该研究通过连接28个MCP服务器(含250个工具)构建了跨领域测试环境,相比现有基准更强调多工具协同、长程规划和模糊指令处理能力。实验评估了20个先进LLM,发现它们在跨域协调和高级推理方面仍存在显著不足。该工作为LLM智能体的真实世界应用能力评估提供了新范式,相关代码已开源。
本文介绍了A.S.E(AI代码生成安全评估)基准,这是一个针对存储库级安全代码生成的评估框架。该基准从具有CVE记录的真实项目中构建任务,保留完整的项目上下文如构建系统和跨文件依赖。其容器化评估框架使用专家规则对代码安全性、构建质量和生成稳定性进行可复现评估。实验发现:Claude-3.7-Sonnet整体表现最佳;开源与专有模型安全差距小(Qwen3-235B-A22B-Instruct安全评分








