
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文对国内6款主流开源多模态大模型(GLM-4.1V、Skywork-R1V3、Qwen2.5-VL、InternVL3、Step3、ERNIE-4.5)在13个场景下的表现进行了横向评测。测试结果显示:在OCR识别、目标识别等基础任务上各模型表现良好;Qwen2.5-VL在表格解析任务中表现突出;Skywork-R1V3在数学推理和部分空间任务中表现较优;但在目标对比、空间变换、色盲测试等复杂任

LongLLaVA(长上下文大型语言和视觉助手)这一创新性混合架构模型,在长上下文多模态理解方面表现出色。该模型集成了 Mamba 和 Transformer 模块,利用多个图像之间的时空依赖性构建数据,并采用渐进式训练策略。

在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。
本文将系统梳理当前主流的多模态评测基准,包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchma
HoloV的思路为多模态大模型的效率优化提供了一个全新的、有价值的方向。在追求效率、进行信息压缩时,不能仅仅关注局部的显著性,更要保留信息的完整性和多样性。“全局观”在AI的世界里同样至关重要。HoloV的提出,无疑为实现更高效、更实用的MLLM应用铺平了道路。

本篇博客全面汇总了大型语言模型(LLMs)。从早期的预训练神经语言模型开始,探讨了它们的起源和发展。重点讨论了Transformer架构及其三个主要分类:仅编码器PLMs、仅解码器PLM和编码器-解码器PLM。接着,文章聚焦于GPT、LLaMA和PaLM这三大LLM家族,阐述了它们的特点和对语言模型领域的贡献。此外,还涉及了其他重要的LLMs,展现了该领域的广泛性和多样性。这篇博客不仅是对LLMs

本文将带你深入了解 Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama 这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!

离线蒸馏是指知识渊博的老师教给学生知识;在线蒸馏意味着教师和学生共同学习;自我蒸馏是指学生自学知识。这三种蒸馏方案可以相互结合。

多模态大模型在图像整体描述和简单问答上表现出色,但在细粒度视觉任务中仍易产生“幻觉”。腾讯ARC实验室与香港理工大学联合提出突破性解决方案—UniPixel。该方法不仅能一网打尽多种视觉任务,更在10大基准测试中刷新纪录,实现了性能的“双赢”。

四个角度谈多模态大模型产生幻觉的原因








