logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大模型的实现原理,以及技术难点

多模态大模型是目前大模型厂商主要的研究方向,其实现过程困难且复杂;虽然具有很多优势,但同样也具有很多的问题。比如对计算资源的需求要远大于单模型的需求,其次多模态数据的对齐与标注同样是一个难题,最后就是跨模态的理解与生成,仍然是一个研究热点。

文章图片
#语言模型#大数据#人工智能
从文本到多模态, 港大RAG-Anything让RAG拥有一体化“全模态视角“

最近,香港大学黄超教授的研究团队推出了一个颇为有趣的开源工具——RAG-Anything。这个项目主要想解决一个比较现实的问题:现有的RAG技术基本只处理文字内容,遇到包含图表、数据表和公式的文档时往往力不从心。而我们平时接触的文档,很多都是图文混排、内容相对丰富的。

文章图片
#php#开发语言#人工智能 +4
AutoJudger|一个多模态大模型的自主评测智能体

构建“大视觉语言模型”(Multimodal Large Language Models,简称 MLLMs)已经成为多模态领域的研究热潮。从最初的GPT-4-Vision,到后来的Qwen-VL、DeepSeek-VL 等模型,这些系统已能同时理解文字和图像,广泛应用于图文问答、图像推理、医学辅助诊断等任务。为了比较它们的能力,研究者也推出了越来越多的多模态评估基准,例如 MME、MMBench、

文章图片
#数据库#人工智能#机器学习 +1
一文搞懂多模态检索和跨模态检索

多模态检索(Multi-Modal Retrieval)强调*多源信息整合,**利用文本、图像、音频、视频等多种模态数据**进行**信息整合与检索**。其目标是**通过不同模态数据的互补性,提供更全面、精确的搜索结果**。例如,当用户输入“落霞与孤鹜齐飞,秋水共长天一色”这样的诗句时,系统能够返回相关的图片、视频片段和音频解说。***相比之下,跨模态检索(Cross-Modal Retrieval

文章图片
#音视频#人工智能#大数据 +1
让具身智能更快更强!华东师大&上大提出TinyVLA:高效视觉-语言-动作模型,遥遥领先

解决的问题:现有的视觉-语言-动作(VLA)模型在推理速度慢和需要大量机器人数据进行预训练方面面临挑战,限制了实际应用。提出的方案:引入一种新型紧凑型视觉-语言-动作模型TinyVLA,提供更快的推理速度和更高的数据效率,消除预训练阶段的需求。应用的技术:TinyVLA框架包括两个关键组件:1) 使用高效的多模态模型初始化策略骨干;2) 在微调过程中集成扩散策略解码器,以实现精确的机器人动作。达到

文章图片
#语言模型#人工智能#自然语言处理 +2
多模态多智能体心智理论MuMA-ToM:推动AI理解复杂社会互动的前沿基准

在复杂的现实世界中,人类的社会互动往往依赖于复杂的心理推理,即推断导致这些互动的潜在心理状态。这种能力被称为“心智理论”(Theory of Mind, ToM),它使我们能够理解和预测他人的行为和意图。对于人工智能系统来说,具备这种能力尤为重要,特别是在需要与人类进行安全和有效互动的场景中。

文章图片
#人工智能#microsoft#pytorch +1
字节跳动提出全能VLM预训练框架 | 超越所有多语言多模态方法,同时具备多粒度对齐与定位

视觉语言预训练旨在从大量数据中学习视觉和语言之间的对齐。大多数现有方法仅学习图像-文本对齐。其他一些方法利用预训练的目标检测器在目标 Level 利用视觉语言对齐。在本文中,作者提出通过一个统一的预训练框架来学习多粒度的视觉语言对齐,该框架同时学习多粒度对齐和多粒度定位。基于此提出了X-VLM,一个具有灵活模块化架构的一体化模型,作者在其中进一步统一了图像-文本预训练和视频-文本预训练。X-VLM

文章图片
#人工智能#搜索引擎
AAAI-2025 | 具身智能体如何逛街!FLAME:利用多模态大模型在城市环境中进行视觉语言导航

论文介绍了FLAME,一种用于城市VLN任务的多模态大模型。通过三阶段调优技术和合成数据,FLAME在城市VLN任务中取得了最先进的性能。实验结果和推理性能证明了MLLMs在复杂导航任务中的潜力。

文章图片
#人工智能#音视频#storm +1
Ollama-OCR:基于Ollama多模态大模型的端到端文档解析和处理

Ollama-OCR是一个Python的OCR解析库,结合了Ollama的模型能力,可以直接处理 PDF 文件无需额外转换,轻松从扫描版或原生PDF文档中提取文本和数据。根据使用的视觉模型和自定义提示词,Ollama-OCR可支持多种语言,并且能把文档转换为特定的格式进行输出。

文章图片
#计算机视觉#人工智能#开发语言 +2
小红书NoteLLM-2 : 多模态大模型表征赋能推荐

现阶段, 大语言模型(LLM)由于其在自然语言理解上的突出表现&优势, 在文本表征任务上有很多应用, 但鲜有工作能利用LLM来辅助提升多模态表征任务。比如小红书的多模态I2I推荐召回场景就是一个多模态表征任务场景。将LLM应用于多模态I2I可以大致分成两种:一种最直接的方式是预训练多模态大语言模型(MLLMs)表征, 对应图中灰色箭头的流程, 但这需要依赖高质量&大规模的训练数据, 训练过程及训练

文章图片
#架构#人工智能#深度学习 +2
    共 1122 条
  • 1
  • 2
  • 3
  • 113
  • 请选择