
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前面笔者介绍了《》及《》,一般的Text2Sparql/Text2SQL技术路线图如下,目标是奖自然语言转话为可查询的SQL语句。目前基于KG+LLM+Agent的KBQA方案,在多语言场景未得到充分探索。下面来看一个智能体框架-mKGQAgent,通过模拟人类推理过程将自然语言问题转化为SPARQL查询。

输入长度减少:RAG的方法可以减少输入长度,但这可能导致所需信息的部分丢失,影响任务解决性能。扩展LLMs的上下文长度:通过微调的方式来扩展LLMs的上下文窗口,以便处理整个输入。当窗口变长时,LLMs难以集中注意力在解决任务所需的信息上,导致上下文利用效率低下。下面来看看两个有趣的另辟蹊径的方法,使用Agent协同来处理长上下文。

笔者关注vary和GOT已久,抽空做了下技术思路记录,GOT是Vary的后续,GOT通过三个阶段的训练,模型能够逐步提升其在各种OCR任务上的性能,从基础的纯文本识别到处理更复杂的格式化和通用OCR任务。每个阶段的训练都注重不同的数据类型和任务,确保模型在多样化的应用场景中都能表现出色。笔者在折腾过程中,这个链路的一阶段的数据搞起来太伤身了,可以直接在开源权重上进行post-train,二/三阶段

通过提升位置编码的分辨率,整合多尺度图像表征。代表:Qwen-VL、S² extension,通过扩展视觉特征的分辨率范围适配高分辨率输入。围绕图像的预处理,包括归一化、缩放、裁剪、根据宽高比动态处理等操作如下图:预设一个默认分辨率,称之为tile,随后将图片切分成子图,每个子图的shape与tile一致,再在batch维度做拼接。tiling还会将原图也resize到tile的shape,和子图

Qwen2.5-VL-7B-Instruct 作为训练底座,SFT掌握推理流程RFT优化精度与格式:格式奖励:推理链需严格包含< recognition>、< tool>、< rethink>、`` 标签,且无额外内容 → 奖励 1.0;否则 → 奖励 0.0准确率奖励:(1)印章:完全匹配→1.0,否则 0.0;(2)表格:奖励 = TEDS(结构 + 内容相似度);(3)公式:奖励 = CDM

前面介绍了《多模态大模型Ovis核心技术点、训练方法、数据细节》,最近看到更新了Ovis2.5,来看下有哪些改进及策略。改进点概述:架构保留了ovis之前的结构,由视觉编码器+VET(视觉嵌入表)+LLM构成:VET过程概述:视觉编码器:图像首先被视觉编码器(如 ViT)处理,分为多个patches,每个patch生成一个连续的特征向量。不同于传统方法直接通过 MLP 投影,Ovis 在视觉编码器

deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。

PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下PIKE-RAG框架及其实现过程,供参考。

文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。








