
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
为此,我们专门 fork 了 llama.cpp,改造了它的向量处理器,设计了一套分阶段的处理流程,让它能够直接接收 Base64 编码的图像。中补全这一能力,同时,我们也会将其性能(包括两个量化版本)与 PyTorch 版的 jina-embeddings-v4,也就是我们后文将反复提及的参考模型,进行全面的性能对比。为了进一步深挖两者之间可能存在的细微差异,我们还选取了来自不同领域、不同分辨率
MCP 的开放性允许我们串联多个独立的 MCP 服务器,构建更强大的工作流。在这个示例中,我们组合了 Jina MCP 服务器和一个 PDF 阅读器的 MCP:https://github.com/sylphxltd/pdf-reader-mcp,目标是生成一份关于欧美 AI 法律合规的研究报告。根据我们的实践,当前 Agent 的能力瓶颈主要在于 LLM 本身,实际应用中还是需要通过精巧的提示工
自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的预训练、一阶.

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在.
相比于单模态人工智能,能够同时处理多种类型信息的多模态AI技术,带来了更大的机遇,同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态:人工智能的新前沿》中,详细阐述了多模态人工智能的发展状况和未来潜力,及其复杂性与挑战性。多模态是一个新兴术语,但它所描述的实际上是一种源远流长的理解方式:自人类出现以来,我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官,从各种
2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。NoLiMa: https://arxiv.org/abs/2502.05167NoLiMA 的研究结果.
在这个高度垂直的任务上,ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型,同时效果提升显著。除了技术的交流,我们也非常乐意介绍 Jina AI 的工作与实习机会,并为您准备了精美的纪念品。CLIP 模型在图文理解任务上表现亮眼,但其内部存在一个常被忽视的“模态鸿沟”:图像和文本的向量各自占据不同的领地。如果您也将参加 ICLR 2025,欢迎在会场找到我们的团队成员,
在 Deep(Re)Search 和那些依赖外部搜索 RAG 系统中,一个头疼的事是:如何判断当前的问题能否该由 LLM 直接作答,还是必须搜索外部信息才能解决?常见的实现都是通过提示词进行路由。而这篇文章给出了一个奇妙的方法——把大模型直接当做 SERP(Search Engine Results Page,搜索引擎结果页)——或超级靠谱或离了大谱。但看到最后,你可能会有所悟。反其道而行 模型即
本次教程将展示如何构建一个通过语义对文本进行搜索的应用程序。应用程序在Jina的神经搜索框架支持下使用了最先进的Transformer语言模型来对维基百科中的文本句子进行索引和搜索。当你在...
当谷歌在 2018 年推出 BERT 模型时,恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。六年后的今天,面对动辄千亿参数的大语言模型浪潮,Answer.AI、LightOn与 HuggingFace 联手打造的 ModernBERT 却选择了一条返璞归真的道路:通过架构创新,将大语言模型的先进经验移植到小型模型中,让 4 亿参数的小模型迸发出超越预期的性能。为了深入了解







