logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ChartCoder:推进多模态大语言模型在图表到代码生成中的应用

多模态大语言模型(MLLMs)在图表理解任务中展示了卓越的能力。然而,使用文本描述来解释图表往往会导致信息丢失,因为它无法完全捕捉图表中嵌入的密集信息。相比之下,将图表解析为代码提供了无损表示,可以有效地包含所有关键细节。尽管现有的开源MLLMs在图表理解任务中取得了成功,但在应用于图表到代码任务时仍面临两大挑战:(1) 生成代码的可执行性低且图表细节恢复不佳;(2) 缺乏大规模和多样化的训练数据

文章图片
#语言模型#人工智能#自然语言处理
MES-RAG: 将多模态、实体存储和安全保障引入RAG

相似实体间的混淆(CASE)是在医疗保健、金融和客户服务等领域提供精确和相关答案的重大挑战。实体被定义为任何具有可识别属性的独特对象——如人物、地点、组织或产品——在确定响应的准确性和有用性方面起着至关重要的作用。然而,传统方法往往检索整个文本语料库中的信息,其中与不同实体相关的相似文本容易导致信息混淆,并导致大型语言模型产生幻觉。这种混淆削弱了响应的可靠性,突显了对更精确处理和准确检索实体特定信

文章图片
#安全#人工智能#语言模型
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通

文章图片
#人工智能
面向多模态大语言模型的疾病分类中的检索增强上下文学习

目标:我们旨在动态检索信息丰富的示例,以增强多模态大语言模型(MLLMs)在疾病分类中的上下文学习。方法:我们提出了一种检索增强上下文学习(RAICL)框架,该框架将检索增强生成(RAG)和上下文学习(ICL)相结合,自适应地选择具有相似疾病模式的示例,从而提高MLLMs的ICL效果。具体来说,RAICL检查来自不同编码器的嵌入,包括ResNet、BERT、BioBERT和ClinicalBERT

文章图片
#语言模型#分类#学习
MMKB-RAG: 一个多模态知识型检索增强生成框架

大型语言模型(LLMs)和多模态LLMs的最新进展令人瞩目。然而,这些模型仍然仅依赖于其参数化知识,这限制了它们生成最新信息的能力,并增加了产生错误内容的风险。检索增强生成(RAG)通过结合外部数据源部分缓解了这些问题,但对数据库和检索系统的依赖可能会引入无关或不准确的文档,从而削弱性能和推理质量。在本文中,我们提出了多模态知识型检索增强生成(MMKB-RAG),这是一种新颖的多模态RAG框架,它

文章图片
#人工智能
多模态多智能体框架用于放射科报告生成

放射科报告生成(RRG)旨在从医学影像中自动生成诊断报告,有可能提升临床工作流程并减少放射科医生的工作量。虽然最近利用多模态大语言模型(MLLMs)和检索增强生成(RAG)的方法取得了显著成果,但仍面临事实不一致、幻觉和跨模态对齐错误等挑战。我们提出了一种多模态多智能体框架用于RRG,该框架与逐步临床推理工作流程相一致,其中任务特定的智能体负责检索、草稿生成、视觉分析、细化和综合。实验结果表明,我

文章图片
#人工智能
赋予具身智能体空间推理能力以实现视觉与语言导航

增强移动机器人的空间感知能力对于实现具身化的视觉与语言导航(VLN)至关重要。尽管在模拟环境中取得了显著进展,但直接将这些能力转移到现实场景中往往会导致严重的幻觉现象,使机器人失去有效的空间意识。为了解决这一问题,我们提出了BrainNav,这是一种受生物空间认知理论和认知地图理论启发的生物启发式空间认知导航框架。BrainNav集成了双地图(坐标地图和拓扑地图)和双方向(相对方向和绝对方向)策略

文章图片
#人工智能
双向分层蛋白质多模态表示学习

摘要蛋白质表示学习对许多生物学任务至关重要。最近,基于大规模变压器架构的蛋白质语言模型(pLMs)在大规模蛋白质序列上进行预训练,在基于序列的任务中取得了显著成功。然而,pLMs缺乏结构上下文,将其适应到结合亲和力预测等结构依赖任务仍然是一个挑战。相反,旨在利用3D结构信息的图神经网络(GNNs)在蛋白质相关预测任务中显示出有希望的泛化能力,但其有效性通常受到标记结构数据稀缺性的限制。认识到序列和

文章图片
#人工智能
挑战安全极限:ATLAS挑战赛2025技术报告

摘要 ATLAS 2025对抗性测试与大模型对齐安全大奖赛聚焦多模态大语言模型(MLLMs)的安全漏洞评估,吸引了86支队伍参与两阶段挑战。第一阶段(白盒攻击)要求参赛者针对180个有害文本提示设计对抗性图文对,测试开源模型Qwen2-VL-7B和Internvl2-8B的脆弱性;第二阶段(黑盒评估)进一步升级任务复杂度。比赛揭示了MLLMs在跨模态交互中的安全风险,为防御机制创新提供了基准。相关

#安全
20亿参数逆袭!开源 Text-to-SQL 模型 GEMMA-SQL 实测:碾压 IRNet 等 SOTA,普通 PC 能部署

GEMMA-SQL模型实现自然语言转SQL的重大突破,仅20亿参数却性能卓越,在SPIDER基准测试中准确率超60%,超越多个大模型。该开源模型采用LoRA微调技术,可在普通电脑运行,无需高端硬件。研究显示其prompt设计精妙,支持迭代纠错,通过少样本学习使准确率提升至88%。未来还将优化多语言和跨领域能力,为中小用户提供低成本数据查询解决方案,实现真正的"技术普惠"。

#sql#数据库
    共 567 条
  • 1
  • 2
  • 3
  • 57
  • 请选择