logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大语言模型arxiv论文略读(140)

➡️ 问题背景:多模态大语言模型(Multimodal Large Language Model, MLLM)在视觉语言任务中展现出显著的能力,但现有的通用视觉语言模型(VLM)在医疗视觉问答(Med-VQA)任务中表现不佳,尤其是在处理细微的医学图像时。为了在保持高数据质量的同时最大化数据量,研究团队提出了自适应图像-文本质量增强器(AITQE),旨在动态评估和增强图像-文本对的质量,从而在不显

文章图片
#语言模型#人工智能#自然语言处理 +1
多模态大语言模型arxiv论文略读(二十四)

➡️ 研究动机:为了提高MLLMs在基本的物体级感知任务上的表现,特别是计数任务,研究团队提出了一种新的方法,通过引入额外的感知控制输入(如分割图和深度图)来增强模型的感知能力。➡️ 方法简介:研究团队设计了一系列结构化的实验,涵盖了图像识别与理解、图像中的文本识别与理解、图像推理能力、图像中的文本推理能力、图像与文本的综合理解等多个方面。为了更准确地评估MLLMs的图表理解能力,研究团队设计了C

文章图片
#语言模型#人工智能#计算机视觉
多模态大语言模型arxiv论文略读(七十四)

研究团队提出了一种新的方法,通过利用多模态大语言模型(MLLMs)生成高质量的文本描述,并利用这些生成的文本作为元数据来净化IAA数据集中的噪声,从而构建一个统一的质量和美学图像-文本数据集。为了解决这些问题,研究团队开发了xLLaMA-100和xBLOOM-100(统称为xLLMs-100),旨在扩展LLMs的多语言能力至100种语言,并通过多语言指令调优和跨语言人类反馈对齐,提升模型的理解和生

文章图片
#语言模型#人工智能#深度学习
docker启动报错code=exited, status=1/FAILURE——问题排查

该错误什么信息都没有透露,但是我们可以通过查看docker日志,来进一步分析原因。会看到docker0的配置,此时需要将docker0的配置删除。基本能够断定Linux的防火墙和docker的网络冲突导致的。查看 Docker 守护进程的日志,以获取更多错误信息。在某台centos7机器上,启动docker服务。删除完之后,重启docker。

文章图片
#docker#eureka#容器
多模态大语言模型arxiv论文略读(135)

本研究探讨了多模态大型语言模型(MLLMs)在推理过程中的计算冗余,并提出了不同的方法来跳过计算,如跳过整个块、前馈网络(FFN)或自注意力(SA)层,以及并行化某些层,如FFN和SA层。该框架包括冻结的LLM、可训练的映射模块(C)和冻结的感知编码器(EM),用于处理不同模态的输入。➡️ 研究动机:为了提高AEB系统在开放场景中的适应性,研究团队提出了Dual-AEB系统,该系统结合了先进的多模

文章图片
#语言模型#人工智能#自然语言处理
多模态大语言模型arxiv论文略读(七十二)

➡️ 论文标题:DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models➡️ 论文作者:Linli Yao, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, Lu Hou➡️ 研究机构: 北京大学、香港大学

文章图片
#语言模型#人工智能#自然语言处理
北京大学法律大模型——高质量数据、MoE架构、多智能体协同

袁粒老师博士毕业于新加坡南洋理工大学,指导老师有颜水成(前昆仑万维首席科学家)、冯佳时(现字节豆包大模型视觉基础研究团队负责人),大模型人脉、资源非常不错。不仅如此,也是开源项目opensora的发起者。Chatlaw的整体流程非常复杂,需要构建图谱,多智能体协同。以图谱来说,知识图谱的构建成本很高,而且难以保证知识的实时性。然而,高成本却没有带来显著的性能提升,比较遗憾。但Chatlaw提出一种

文章图片
#AIGC#语言模型#人工智能
多模态大语言模型arxiv论文略读(九十八)

➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。4) 通过微调LLMs的少量参数来选择最终的实体。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。➡️ 问题背景:当前的多模态生成模型在视觉文

文章图片
#语言模型#深度学习#人工智能 +1
多模态大语言模型arxiv论文略读(八十二)

➡️ 实验设计:在MovieChat数据集上进行了实验,实验设计了不同的组件(如链式思维、CLIP Score指导的帧采样、上下文学习)的变化,以及不同模式(全局模式和断点模式)的评估,以全面评估模型在不同条件下的表现。➡️ 研究动机:为了应对LLMs和MLLMs在特定领域训练时的灾难性遗忘问题,研究团队提出了一种新的模型无关的自解压方法——树生成(Tree Generation, TG),该方法

文章图片
#语言模型#人工智能#自然语言处理 +1
多模态大语言模型arxiv论文略读(六十)

➡️ 方法简介:研究团队提出了两种模态非特定损失目标,包括延迟EOS损失和不确定性损失,以及两种模态特定损失目标,即冗长图像的令牌多样性损失和冗长视频的帧特征多样性损失。为了进一步探索这一问题,研究团队提出了一种系统的方法,通过设计延迟EOS损失、增加输出不确定性、提高多样性等手段,来诱导MLLMs生成更长的序列,从而增加能量-延迟成本。➡️ 问题背景:现有的视频生成技术虽然取得了显著进展,但生成

文章图片
#语言模型#计算机视觉#人工智能
    共 149 条
  • 1
  • 2
  • 3
  • 15
  • 请选择