logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:从长网页提取最优文本段:如何利用迟分(late-chunking)算法,从长网页内容中选取最相关的信息小片段。对收集到的URL进行重排:如何利用重排器(Reranker) 让 LLM Agent 在几百个URL中聪明地选择爬取哪

如果伟大可以被计划

2025 年将是 AI 迅猛发展的关键一年。中美之间的竞争日益激烈,Deepseek-R1 一鸣惊人,大模型正向 Test-Time Compute 方向演进,垂直领域的智能体(Agent)也逐步落地。在这样充满机遇与挑战的一年,作为 AI 从业者或初创公司,我们应该如何把握机会,走向成功?之前读到一本书《为什么伟大不能被计划》,由 OpenAI 的两位前研究员撰写。我还没有完全读完,但无论是我个

#人工智能
文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。实验的核心思路是,对给定的图像-文本对,计算文本里每个词的向量(token embeddings)和图像里每个图像块的向量(patch embeddings),计算它们之间的相似度。然后,把这些相似度数值映射为热力图,叠加在图像之上,就能直观地看到文本 t

#深度学习#机器学习#人工智能
基于 LLM 的查询扩展:信息更全,搜索更准

查询扩展 (Query Expansion) ,这股风潮又刮回来了!作为曾经搜索的标配,后来一度沉寂,在今天推理式搜索 (Agentic Search) 的浪潮下,查询扩展又重新回到了聚光灯下。做过 Agentic Search (比如 DeepSearch/DeepResearch) 的朋友肯定深有体会,用户直接输入的查询词,要么太笼统,不够聚焦;要不就太细碎,不够全面。这让那些依赖关键词匹配或

#人工智能#算法#服务器 +2
Jina-VLM:可在笔记本上跑的多语言视觉小模型

凭借这一精细的训练控制,Jina-VLM 不仅在 MMMB 等多语言视觉榜单上达到 SOTA,更关键的是,在 MMLU(通用知识)和 GSM-8K(数学推理)等纯文本基准测试中,它几乎完整保留了 Qwen3-1.7B 基座的性能,真正实现了。,连接 SigLIP2 视觉编码器与 Qwen3 语言基座,成功在支持 29 种语言的同时,实现了对任意分辨率下自然图片和文档图片(如扫描件、ppt、表图)上

#jina
Jina Embeddings V4: 为搜索而生,多模态多语言向量模型

其中,其多向量版本不仅在专业的视觉文档基准上取得了最高分(ViDoRe 90.2 分,Jina-VDR 80.2 分),同时在通用的多模态检索任务(CLIP 84.1 分)上也保持了强大的竞争力。我们没有采用高成本的长序列训练,而是通过“短训长用”(train short, deploy long)的巧思,借助 ALiBi 算法,让一个仅在 512 词元上训练的模型,推理时能无缝处理 8192 词

#jina
jina-reranker-m0 全新多模态多语言重排器

在 ViDoRe(视觉文档检索,NDCG@5 达 91.02)和 M-BEIR(跨模态检索,比如文搜图、图搜文)这些基准上,m0 表现非常扎实,能够有效理解并排序包含丰富视觉信息的文档,效果明显好过纯文本模型,也优于我们测的一些同类多模态竞品(如基于 Qwen2-VL 的 MonoQwen2-VL-v0.1)。对于其他的输入组合(如图像到图像、图像到多模态文档、文本到多模态文档),模型也具备零样本

#jina
Jina官方MCP三板斧:搜、读、筛

MCP 的开放性允许我们串联多个独立的 MCP 服务器,构建更强大的工作流。在这个示例中,我们组合了 Jina MCP 服务器和一个 PDF 阅读器的 MCP:https://github.com/sylphxltd/pdf-reader-mcp,目标是生成一份关于欧美 AI 法律合规的研究报告。根据我们的实践,当前 Agent 的能力瓶颈主要在于 LLM 本身,实际应用中还是需要通过精巧的提示工

#jina
让 llama.cpp 支持多模态向量模型

为此,我们专门 fork 了 llama.cpp,改造了它的向量处理器,设计了一套分阶段的处理流程,让它能够直接接收 Base64 编码的图像。中补全这一能力,同时,我们也会将其性能(包括两个量化版本)与 PyTorch 版的 jina-embeddings-v4,也就是我们后文将反复提及的参考模型,进行全面的性能对比。为了进一步深挖两者之间可能存在的细微差异,我们还选取了来自不同领域、不同分辨率

Jina官方MCP三板斧:搜、读、筛

MCP 的开放性允许我们串联多个独立的 MCP 服务器,构建更强大的工作流。在这个示例中,我们组合了 Jina MCP 服务器和一个 PDF 阅读器的 MCP:https://github.com/sylphxltd/pdf-reader-mcp,目标是生成一份关于欧美 AI 法律合规的研究报告。根据我们的实践,当前 Agent 的能力瓶颈主要在于 LLM 本身,实际应用中还是需要通过精巧的提示工

#jina
    共 28 条
  • 1
  • 2
  • 3
  • 请选择