Jina AI 个人主页

@Jina_AI

Jina AI

2023-01-17 11:27:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MIT 科技评论最新报告揭示多模态 AI 带来的巨大机遇

相比于单模态人工智能，能够同时处理多种类型信息的多模态AI技术，带来了更大的机遇，同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态：人工智能的新前沿》中，详细阐述了多模态人工智能的发展状况和未来潜力，及其复杂性与挑战性。多模态是一个新兴术语，但它所描述的实际上是一种源远流长的理解方式：自人类出现以来，我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官，从各种

#人工智能 #科技

文本向量的长度偏差及其在搜索中的影响

最后，认识到模型的局限性，是一种务实的态度，这对于构建可靠、高效的系统至关重要。这样一来，我们可能就想设一个阈值，比如 0.459（平均值 + 1 倍标准差），或者干脆四舍五入到 0.5，然后规定：任何相似度低于这个值的文档对，内容就基本不相关。在基于向量的搜索里，虽然总能找到一个“最佳匹配”的结果，但长度偏差的存在，导致我们无法单凭相似度分数，就判断这个“最佳匹配”或者其他得分较低的结果，内容是

#人工智能

中英双语8K向量大模型新鲜出炉，企业出海必备！

自从我们的 Embeddings V2 获得各界好评后，今日，我们推出了全新的中英双语文本向量大模型：jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势，能够处理长达八千词元的文本，更能流畅应对中英文双语内容，为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越，全赖优质的双语数据集，经过我们严格且平衡的预训练、一阶.

#人工智能

长文本向量模型在4K Tokens 之外形同盲区？

2025 年 2 月发布的 NoLiMA 是一种大语言模型（LLM）长文本理解能力评估方法。不同于传统“大海捞针”（Needle-in-a-Haystack, NIAH）测试依赖关键词匹配的做法，它最大的特点是通过精心设计问题和关键信息，迫使模型进行深层语义理解和推理，才能从长文本中找到答案。NoLiMa: https://arxiv.org/abs/2502.05167NoLiMA 的研究结果.

#人工智能 #深度学习 #机器学习 +1

Jina AI 携搜索小模型亮相 ICLR 2025 新加坡

在这个高度垂直的任务上，ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型，同时效果提升显著。除了技术的交流，我们也非常乐意介绍 Jina AI 的工作与实习机会，并为您准备了精美的纪念品。CLIP 模型在图文理解任务上表现亮眼，但其内部存在一个常被忽视的“模态鸿沟”：图像和文本的向量各自占据不同的领地。如果您也将参加 ICLR 2025，欢迎在会场找到我们的团队成员，

#人工智能 #jina #机器学习

直接拿大模型当搜索页(SERP)会怎样？

在 Deep(Re)Search 和那些依赖外部搜索 RAG 系统中，一个头疼的事是：如何判断当前的问题能否该由 LLM 直接作答，还是必须搜索外部信息才能解决？常见的实现都是通过提示词进行路由。而这篇文章给出了一个奇妙的方法——把大模型直接当做 SERP（Search Engine Results Page，搜索引擎结果页）——或超级靠谱或离了大谱。但看到最后，你可能会有所悟。反其道而行模型即

Jina 实例秀 —— 维基百科句子搜索

本次教程将展示如何构建一个通过语义对文本进行搜索的应用程序。应用程序在Jina的神经搜索框架支持下使用了最先进的Transformer语言模型来对维基百科中的文本句子进行索引和搜索。当你在...

#python #java #人工智能 +2

Jina Embeddings V4: 为搜索而生，多模态多语言向量模型

其中，其多向量版本不仅在专业的视觉文档基准上取得了最高分（ViDoRe 90.2 分，Jina-VDR 80.2 分），同时在通用的多模态检索任务（CLIP 84.1 分）上也保持了强大的竞争力。我们没有采用高成本的长序列训练，而是通过“短训长用”（train short, deploy long）的巧思，借助 ALiBi 算法，让一个仅在 512 词元上训练的模型，推理时能无缝处理 8192 词

#jina

ModernBERT 为我们带来了哪些启示？

当谷歌在 2018 年推出 BERT 模型时，恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。六年后的今天，面对动辄千亿参数的大语言模型浪潮，Answer.AI、LightOn与 HuggingFace 联手打造的 ModernBERT 却选择了一条返璞归真的道路：通过架构创新，将大语言模型的先进经验移植到小型模型中，让 4 亿参数的小模型迸发出超越预期的性能。为了深入了解

零门槛，不等待！立刻领取 Embedding API 密钥及 1 万免费 tokens！

2023 年 10 月 30 号，Jina AI 正式发布了 jina-embeddings-v2，是全球首个唯一支持 8K（8192）输入长度的开源向量大模型，今天，我们趁热打铁，为企业和开发者提供 Embedding API，即插即用！借助该 API，开发者可以用于改进检索增强生成 (RAG) 系统的效果，用以解决大型语言模型的上下文长度限制、幻觉问题和知识注入问题。现在我们提供了其英文版本.

共 28 条

请选择