logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Jina AI x 开源之夏|近似最近邻搜索算法HNSW的改进与优化

Jina AI 的开源向量索引产品AnnLite的核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们对 HNSW 算法进行了改进和优化。10 月 26 日晚 7:00,我们邀请到了负责本优化项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改进与优化》。作者介绍叶坚白J...

#算法#大数据#python +2
EMNLP 2024 BoF 活动报名:用 Embeddings、Reranker、小型语言模型打造更优搜索!

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在.

#语言模型#人工智能#自然语言处理
中英双语8K向量大模型新鲜出炉,企业出海必备!

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的预训练、一阶.

文章图片
#人工智能
大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我今天在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个源自 LLM 社区最近讨论的问题。他问我们 Jina Embeddings 能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上翻了车。我说:“老实说,我也不知道。” 他接着详细阐述了这个能力对于他应用的重要性,并暗示:Tokenizer 可能是问题的源头,我若有所思点点头,脑海里开始

文章图片
什么是多模态深度学习?有哪些应用场景?

深度多模态学习能够更全面地理解数据,在准确性和效率上均有大幅提升。但首先,什么是多模态深度学习?它有哪些应用场景?本文将从定义、应用与前景三个角度来回答这两个问题。随着深度神经网络的发展,深度学习也逐渐向多模态技术迈进。多模态技术为非结构化数据的智能处理提供了可能,包括图像、音频、视频、PDF 和 3D 网格。多模态深度学习不仅可以更全面地理解数据,还可以提高模型的效率和准确性。Jina AI 是

J-Tech Talk | 编写Dockerfile的最佳实践

不论是个人开发者还是企业,上云已经成为基本的需求。使用 Dockerfile 构建 Docker 镜像是其中基础的一步,而 Dockerfile 编写得是否合理会直接影响到镜像的优劣。和开源团队 Jina AI 的 Engieer Manager 苗兆丰一起,聊一聊如何构建更小更优的 Docker 镜像,本次讲座将为你带来编写 Dockerfile 的最佳实践指南!一步步的行动拆解,带你探究 Do

文章图片
#devops#运维
DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:从长网页提取最优文本段:如何利用迟分(late-chunking)算法,从长网页内容中选取最相关的信息小片段。对收集到的URL进行重排:如何利用重排器(Reranker) 让 LLM Agent 在几百个URL中聪明地选择爬取哪

如果伟大可以被计划

2025 年将是 AI 迅猛发展的关键一年。中美之间的竞争日益激烈,Deepseek-R1 一鸣惊人,大模型正向 Test-Time Compute 方向演进,垂直领域的智能体(Agent)也逐步落地。在这样充满机遇与挑战的一年,作为 AI 从业者或初创公司,我们应该如何把握机会,走向成功?之前读到一本书《为什么伟大不能被计划》,由 OpenAI 的两位前研究员撰写。我还没有完全读完,但无论是我个

#人工智能
文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。实验的核心思路是,对给定的图像-文本对,计算文本里每个词的向量(token embeddings)和图像里每个图像块的向量(patch embeddings),计算它们之间的相似度。然后,把这些相似度数值映射为热力图,叠加在图像之上,就能直观地看到文本 t

#深度学习#机器学习#人工智能
基于 LLM 的查询扩展:信息更全,搜索更准

查询扩展 (Query Expansion) ,这股风潮又刮回来了!作为曾经搜索的标配,后来一度沉寂,在今天推理式搜索 (Agentic Search) 的浪潮下,查询扩展又重新回到了聚光灯下。做过 Agentic Search (比如 DeepSearch/DeepResearch) 的朋友肯定深有体会,用户直接输入的查询词,要么太笼统,不够聚焦;要不就太细碎,不够全面。这让那些依赖关键词匹配或

#人工智能#算法#服务器 +2
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择