logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从多模态大模型中「拆」出音频向量模型

实验结果也指向了一个清晰优先级:音频编码器的对齐质量是第一位的(stage-3 vs pre-stage-1 差了 4.2 个点),LLM backbone 的生成能力对向量化任务没有贡献(stage 2-3 训练前后没有差异)。一段音频和它的文本描述,在共享向量空间中距离很短。M3 用的是第三阶段之后完整训练过的音频编码器,M2 用的是 stage-1 之前的初始版本,两者 LLM backbo

#音视频
MIT 科技评论最新报告揭示多模态 AI 带来的巨大机遇

相比于单模态人工智能,能够同时处理多种类型信息的多模态AI技术,带来了更大的机遇,同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态:人工智能的新前沿》中,详细阐述了多模态人工智能的发展状况和未来潜力,及其复杂性与挑战性。多模态是一个新兴术语,但它所描述的实际上是一种源远流长的理解方式:自人类出现以来,我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官,从各种

#人工智能#科技
社区面对面 | Jina + MindSpore,3 分钟搭建服装搜索系统

文章导读 本期 Jina AI 社区面对面,我们有幸邀请到了华为昇腾开源生态总监黄之鹏,他将围绕 MindSpore 及 Jina,带来精彩的分享。云原生神经搜索框架 Jina,与华为自研...

#github#python#java +2
Jina AI x 开源之夏|近似最近邻搜索算法HNSW的改进与优化

Jina AI 的开源向量索引产品AnnLite的核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们对 HNSW 算法进行了改进和优化。10 月 26 日晚 7:00,我们邀请到了负责本优化项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改进与优化》。作者介绍叶坚白J...

#算法#大数据#python +2
EMNLP 2024 BoF 活动报名:用 Embeddings、Reranker、小型语言模型打造更优搜索!

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在.

#语言模型#人工智能#自然语言处理
中英双语8K向量大模型新鲜出炉,企业出海必备!

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的预训练、一阶.

文章图片
#人工智能
大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我今天在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个源自 LLM 社区最近讨论的问题。他问我们 Jina Embeddings 能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上翻了车。我说:“老实说,我也不知道。” 他接着详细阐述了这个能力对于他应用的重要性,并暗示:Tokenizer 可能是问题的源头,我若有所思点点头,脑海里开始

文章图片
什么是多模态深度学习?有哪些应用场景?

深度多模态学习能够更全面地理解数据,在准确性和效率上均有大幅提升。但首先,什么是多模态深度学习?它有哪些应用场景?本文将从定义、应用与前景三个角度来回答这两个问题。随着深度神经网络的发展,深度学习也逐渐向多模态技术迈进。多模态技术为非结构化数据的智能处理提供了可能,包括图像、音频、视频、PDF 和 3D 网格。多模态深度学习不仅可以更全面地理解数据,还可以提高模型的效率和准确性。Jina AI 是

文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。实验的核心思路是,对给定的图像-文本对,计算文本里每个词的向量(token embeddings)和图像里每个图像块的向量(patch embeddings),计算它们之间的相似度。然后,把这些相似度数值映射为热力图,叠加在图像之上,就能直观地看到文本 t

#深度学习#机器学习#人工智能
Jina-VLM:可在笔记本上跑的多语言视觉小模型

凭借这一精细的训练控制,Jina-VLM 不仅在 MMMB 等多语言视觉榜单上达到 SOTA,更关键的是,在 MMLU(通用知识)和 GSM-8K(数学推理)等纯文本基准测试中,它几乎完整保留了 Qwen3-1.7B 基座的性能,真正实现了。,连接 SigLIP2 视觉编码器与 Qwen3 语言基座,成功在支持 29 种语言的同时,实现了对任意分辨率下自然图片和文档图片(如扫描件、ppt、表图)上

#jina
    共 25 条
  • 1
  • 2
  • 3
  • 请选择